HPC & ML Infrastructure Engineering

HPC 클러스터, 직접 만들어 보고 싶으신가요?

하드웨어 구매부터 OS 설치, Slurm, 네트워크, GPU 업그레이드까지
$1,264로 만드는 실전 HPC 클러스터 구축기


어디서부터 시작할지 모르겠다면?

🔧 직접 클러스터 구축

하드웨어 선택, 업그레이드, 네트워크, 소프트웨어 스택 전 과정

> HPC From Scratch 시리즈

🎓 HPC 처음 배우는 분

SSH, 모듈 시스템, Slurm 기초부터 차근차근

> HPC 101 시리즈

🐧 리눅스/터미널이 낯선 분

터미널 공포증 극복, 필수 명령어 마스터

> Linux 101 시리즈

📺 최신 영상: Building Real HPC on a Budget


📰 최근 글

포스트 이런 분께 추천
HPC From Scratch 02: RAM, NVMe 업그레이드와 iGPU 메모리 문제 저렴한 HPC 노드 업그레이드
HPC From Scratch 01: $1,300 이하로 HPC 클러스터 구성하기 HPC 클러스터를 직접 만들고 싶은 분
Special Topic: 클라우드 스토리지 연동 클라우드 스토리지와 데이터 주고받기
HPC 101 Lesson 4: Slurm 작업 디버깅 Job이 PENDING에서 안 넘어갈 때
Linux 101: 터미널 공포증 극복 검은 화면이 무서운 분

About Me

안녕하세요, Will Paik입니다. The Login Node에 오신 것을 환영합니다.

저는 대규모 HPC 환경에서 AI/ML 모델을 확장하고 최적화하는 일을 하고 있습니다. 슈퍼컴퓨팅의 세계에는 늘 미묘한 긴장감이 흐릅니다. 시스템 관리자는 “서버가 죽으면 안 돼!”를 외치고, 연구자는 “무조건 더 빨리 돌려줘!”를 원하죠. 저는 이 둘 사이의 기술적 스윗 스팟(Sweet Spot)을 찾는 역할을 합니다.

현재 본업은 HPC 머신러닝 성능 엔지니어입니다. 낮에는 거대 AI 모델 학습을 위해 대규모 클러스터를 최적화하고, 밤에는 그 원리를 쉽게 전해드리기 위해 방구석 미니 슈퍼컴퓨터를 직접 조립하고(가끔은 태워 먹으며) 실험합니다.

CORE STACK: Slurm Linux Docker/Apptainer PyTorch Distributed Ansible

Cluster Setup
"Function over Form. The physical cluster building process documented on The Login Node."

My Home Cluster

“로그인을 못 하면, 컴퓨터를 못 합니다.”

Hardware Specs (클릭해서 펼치기)
Role Hardware Model Specs
Login Node Lenovo IdeaPad 1 Ryzen 5 7520U, 8GB RAM
Management Lenovo ThinkCentre M715q Ryzen 5 2400GE, 16GB RAM
Visualization Lenovo ThinkCentre M715q Ryzen 5 2400GE, 16GB RAM
Worker Nodes (x2) Lenovo ThinkCentre M715q Ryzen 5 2400GE, 16GB RAM
GPU Node HP Envy TE01 Core i7-10700F, 32GB RAM
GTX 1660 Super (6GB)
Storage (Shared via Mgmt) 1TB NVMe SSD (NFS Share)
Network Gigabit Managed Switch 8-Port, VLAN Support
Software Stack (클릭해서 펼치기)
  • OS: Rocky Linux 10
  • Scheduler: Slurm 25
  • Provisioning: Ansible
  • Container: Apptainer
  • Monitoring: Prometheus + Grafana (In Progress)