안녕하세요!

안녕하세요 Will Paik입니다. The Login Node에 오신 것을 환영합니다.

저는 HPC(고성능 컴퓨팅) 하드웨어AI/ML 모델 사이의 간극을 잇는 일을 하고 있습니다.

슈퍼컴퓨팅의 세계에는 늘 보이지 않는 언어 장벽이 존재합니다. 시스템 관리자는 “서버가 죽으면 안 돼! (안정성)”를 외치고, 연구자는 “무조건 더 빨리 돌려줘! (속도)”를 원하죠. 저는 이 두 세계 사이에서 서로의 요구를 조율하고 시스템을 최적화하는 통역사이자 엔지니어 역할을 합니다.

현재 본업은 HPC 머신러닝 성능 엔지니어입니다. 낮에는 거대 AI 모델을 학습시키기 위해 대규모 클러스터를 최적화하고, 퇴근 후에는 여러분께 그 원리를 쉽게 설명하기 위해 제 개인 미니 슈퍼컴퓨터를 직접 조립하고(또 고장 내며) 연구합니다.

CORE STACK: Slurm Linux Docker/Apptainer PyTorch Distributed Ansible

Cluster Setup
"Function over Form. The physical cluster building process documented on The Login Node."

🤖 ‘The Login Node’는 어떤 곳인가요?

“로그인을 못 하면, 컴퓨팅도 없습니다. (If you can’t log in, you can’t compute.)”

저는 The Login Node 유튜브 채널을 운영하며 HPC 튜토리얼, 시스템 최적화, 그리고 과학을 위한 데브옵스(DevOps) 이야기를 다룹니다.

대부분의 튜토리얼은 “Hello World”를 찍고 끝납니다. 하지만 우리는 더 깊이 들어갑니다. SSH의 기초 원리부터 미니 PC를 활용한 물리적 클러스터 구축까지, 엔지니어링의 전 과정을 가감 없이 기록합니다.

sbatch 스크립트 작성 때문에 골머리를 앓는 대학원생이든, 자신만의 홈랩을 구축하려는 엔지니어든, 이곳이 여러분의 든든한 지식 저장소(Knowledge Base)가 되기를 바랍니다.


🎬 여기서 시작하세요: HPC 101

HPC가 처음이신가요? 최근에 업로드된 튜토리얼 시리즈를 확인해 보세요.


📰 최신 소식