본문으로 건너뛰기

소개

Will Paik
작성자
Will Paik
대규모 GPU 클러스터를 최적화하는 HPC 엔지니어. 밤에는 방구석 미니 슈퍼컴퓨터를 조립하며(가끔은 태워 먹으며) 그 과정을 기록합니다.

안녕하세요, Will Paik입니다. The Login Node에 오신 것을 환영합니다.

저는 대규모 HPC 환경에서 AI/ML 모델을 확장하고 최적화하는 일을 하고 있습니다. 슈퍼컴퓨팅의 세계에는 늘 미묘한 긴장감이 흐릅니다. 시스템 관리자는 “서버가 죽으면 안 돼!“를 외치고, 연구자는 “무조건 더 빨리 돌려줘!“를 원하죠. 저는 이 둘 사이의 기술적 스윗 스팟(Sweet Spot)을 찾는 역할을 합니다.

현재 본업은 HPC 머신러닝 성능 엔지니어입니다. 낮에는 거대 AI 모델 학습을 위해 대규모 클러스터를 최적화하고, 밤에는 그 원리를 쉽게 전해드리기 위해 방구석 미니 슈퍼컴퓨터를 직접 조립하고(가끔은 태워 먹으며) 실험합니다.

CORE STACK: Slurm Linux Docker/Apptainer PyTorch Distributed Ansible


이 블로그에서 다루는 것들
#

The Login Node는 HPC 및 ML 인프라 엔지니어링 블로그입니다. 단순히 작업을 제출하고 기다리는 방법이 아니라, 시스템이 실제로 어떻게 동작하는지 이해하고 싶은 분들을 위한 공간입니다.

콘텐츠는 세 가지 시리즈로 구성되어 있습니다:

🔧 HPC From Scratch – $1,300 이하의 일반 PC 부품으로 6노드 클러스터를 직접 구축합니다. 하드웨어 선택, OS 설치, 네트워크, Slurm, Ansible, GPU 워크로드까지. 여기서 시작하세요.

🎓 HPC 101 – SSH, 모듈 시스템, Slurm 기초, 작업 디버깅. HPC가 처음인 연구자를 위한 시리즈. 여기서 시작하세요.

🐧 Linux 101 – 터미널이 낯선 분들을 위한 명령줄 기초. 여기서 시작하세요.

홈 클러스터
#

역할 하드웨어 사양
로그인 노드 Lenovo IdeaPad 1 Ryzen 5 7520U, 8GB RAM
관리 노드 Lenovo ThinkCentre M715q Ryzen 5 2400GE, 16GB RAM
시각화 노드 Lenovo ThinkCentre M715q Ryzen 5 2400GE, 16GB RAM
워커 노드 (x2) Lenovo ThinkCentre M715q Ryzen 5 2400GE, 16GB RAM
GPU 노드 HP Envy TE01 Core i7-10700F, 32GB RAM, GTX 1660 Super
스토리지 (관리 노드 경유) 1TB NVMe SSD (NFS)
네트워크 기가비트 매니지드 스위치 8포트, VLAN 지원

소프트웨어 스택: Rocky Linux 10, Slurm 25, Ansible, Apptainer, Prometheus + Grafana (구축 중)


배경
#

Penn State 대학교에서 항공우주공학 박사학위(계산과학 부전공)를 취득했으며, 그 후 8년간 500명 이상의 연구자를 지원했습니다. 현재는 Northeastern University에서 근무 중입니다. 항공우주 분야의 배경은 대규모 최적화 문제를 바라보는 시각을 형성해 주었고, 지금은 우주선 궤도 대신 GPU 클러스터에 그 방식을 적용하고 있습니다.

전체 경력 사항은 Career 페이지에서 확인하실 수 있습니다.


연락처
#