안녕하세요, Will Paik입니다. The Login Node에 오신 것을 환영합니다.
저는 대규모 HPC 환경에서 AI/ML 모델을 확장하고 최적화하는 일을 하고 있습니다. 슈퍼컴퓨팅의 세계에는 늘 미묘한 긴장감이 흐릅니다. 시스템 관리자는 “서버가 죽으면 안 돼!“를 외치고, 연구자는 “무조건 더 빨리 돌려줘!“를 원하죠. 저는 이 둘 사이의 기술적 스윗 스팟(Sweet Spot)을 찾는 역할을 합니다.
현재 본업은 HPC 머신러닝 성능 엔지니어입니다. 낮에는 거대 AI 모델 학습을 위해 대규모 클러스터를 최적화하고, 밤에는 그 원리를 쉽게 전해드리기 위해 방구석 미니 슈퍼컴퓨터를 직접 조립하고(가끔은 태워 먹으며) 실험합니다.
CORE STACK: Slurm Linux Docker/Apptainer PyTorch Distributed Ansible
이 블로그에서 다루는 것들 #
The Login Node는 HPC 및 ML 인프라 엔지니어링 블로그입니다. 단순히 작업을 제출하고 기다리는 방법이 아니라, 시스템이 실제로 어떻게 동작하는지 이해하고 싶은 분들을 위한 공간입니다.
콘텐츠는 세 가지 시리즈로 구성되어 있습니다:
홈 클러스터 #
| 역할 | 하드웨어 | 사양 |
|---|---|---|
| 로그인 노드 | Lenovo IdeaPad 1 | Ryzen 5 7520U, 8GB RAM |
| 관리 노드 | Lenovo ThinkCentre M715q | Ryzen 5 2400GE, 16GB RAM |
| 시각화 노드 | Lenovo ThinkCentre M715q | Ryzen 5 2400GE, 16GB RAM |
| 워커 노드 (x2) | Lenovo ThinkCentre M715q | Ryzen 5 2400GE, 16GB RAM |
| GPU 노드 | HP Envy TE01 | Core i7-10700F, 32GB RAM, GTX 1660 Super |
| 스토리지 | (관리 노드 경유) | 1TB NVMe SSD (NFS) |
| 네트워크 | 기가비트 매니지드 스위치 | 8포트, VLAN 지원 |
소프트웨어 스택: Rocky Linux 10, Slurm 25, Ansible, Apptainer, Prometheus + Grafana (구축 중)
배경 #
Penn State 대학교에서 항공우주공학 박사학위(계산과학 부전공)를 취득했으며, 그 후 8년간 500명 이상의 연구자를 지원했습니다. 현재는 Northeastern University에서 근무 중입니다. 항공우주 분야의 배경은 대규모 최적화 문제를 바라보는 시각을 형성해 주었고, 지금은 우주선 궤도 대신 GPU 클러스터에 그 방식을 적용하고 있습니다.
전체 경력 사항은 Career 페이지에서 확인하실 수 있습니다.