엔비디아 A100 GPU, 세계에서 가장 빠른 AI 슈퍼컴퓨터 ‘펄머터’에 탑재
엔비디아 A100 GPU, 세계에서 가장 빠른 AI 슈퍼컴퓨터 ‘펄머터’에 탑재
  • 전호종 기자
  • 승인 2021.05.28 09:06
  • 댓글 0
이 기사를 공유합니다

미 국립에너지연구소 과학컴퓨팅센터(NERSC)의 슈퍼컴퓨터 펄머터(Perlmutter)
미 국립에너지연구소 과학컴퓨팅센터(NERSC)의 슈퍼컴퓨터 펄머터(Perlmutter)

엔비디아(CEO 젠슨 황)가 미 국립에너지연구소 과학컴퓨팅센터(NERSC)의 슈퍼컴퓨터 펄머터(Perlmutter)에 6,159개의 엔비디아 A100 텐서코어(Tensor Core) GPU가 탑재됐다고 밝혔다. 펄머터는 7,000명 이상의 NERSC 연구자들에게 약 4엑사플롭스의 AI 성능을 제공한다.

펄머터는 16비트와 32비트 혼합정밀 수학 작업을 세계에서 가장 빠르게 수행한다. 이러한 성능은 올해 구축완료 예정인 로렌스 버클리 국립 연구소(Lawrence Berkeley National Laboratory)의 초고속 슈퍼컴퓨터에서도 제공하지 못하는 성능이다. 24개 이상의 애플리케이션이 펄머터에서 바로 사용될 예정이며, 천체물리학, 기후과학 등 과학 연구 가속화에 활용된다.

3D 우주지도

펄머터는 현존하는 가장 방대한 3D 우주지도를 생성하는 작업에 활용될 예정이다. 이는 한 번의 노출로 5,000개의 은하를 포착할 수 있는 우주 카메라의 일종인 암흑 에너지 분광기(DESI)의 데이터 처리를 도울 것이다.

연구원들은 다음날 밤의 DESI 위치 선정과, 수십 개의 노출을 포착하기 위해 펄머터의 빠른 GPU 연산속도를 활용한다. 이전 시스템에서는 1년 분량의 데이터를 처리하는 데 몇 주 또는 몇 달이 소요됐지만, 펄머터는 며칠 만에 작업을 완료할 수 있다. NERSC 데이터 설계자인 롤린 토마스(Rollin Thomas)는 “GPU를 통해 준비 작업 속도가 20배 향상되어 매우 만족스럽다”고 소감을 밝혔다.

DESI의 지도는 가속화되고 있는 우주 팽창 이면에 숨겨진 신비로운 물리학인 암흑 에너지를 밝히기 위한 목적으로 사용된다. 암흑 에너지는 2011년 노벨상을 수상한 버클리 연구소(Berkeley Lab)의 천재 물리학자인 사울 펄머터Saul Perlmutter)의 연구를 통해 발견되었으며, 펄머터 슈퍼컴퓨터는 그의 이름에서 따왔다.

AI와 HPC를 혼합한 슈퍼컴퓨터

이외에도, 펄머터는 NERSC의 새로운 연구 프로젝트에 활용될 예정이다. 더 향상된 배터리와 바이오 연로에 필요한 원자 상호작용을 발견하는 재료 과학 연구에 활용된다.

기존 슈퍼컴퓨터는 퀀텀 에스프레소(Quantum Espresso)와 같은 프로그램을 통해 몇 나노 초 동안 일부 원자에 대한 시뮬레이션을 생성하는 데 필요한 수학을 간신히 작업할 수 있었다. 그러나 머신러닝을 통해 매우 정확한 시뮬레이션이 도입되면서, 과학자들이 더 많은 원자를 연구하는 데 많은 시간이 소요됐다.

NERSC 애플리케이션 성능 전문가 브랜드 쿡(Brandon Cook)은 “과거에는 베터리 인터페이스와 같은 대형 시스템에 대한 완벽한 원자 시뮬레이션 작업을 하는 것이 불가능했지만, 이제 펄머터를 사용해 해당 작업이 가능해졌다”고 말했다.

A100 텐서 코어는 시뮬레이션을 위한 이중-정밀 부동 소수점 연산과 딥러닝에 필요한 혼합 정밀도 계산을 모두 가속화한다. 엔비디아 V100 GPU를 활용하고 있는 버클리GW(​BerkeleyGW) 또한 작년 11월 고든 벨(Gordon Bell)을 수상하며 NERSC의 인정을 받았다. NERSC에서 프로젝트를 이끌고, 애플리케이션 성능을 감독하는 잭 데슬리프(Jack Deslippe)는 A100의 추가적인 기능이 이러한 연구를 새로운 차원으로 향상시킬 것이라고 말했다.

펄머터를 위한 소프트웨어

젝 데슬리프는 “소프트웨어는 펄머터의 전략적 구성요소다. 펄머터에서 사용되는 엔비디아 HPC 소프트웨어 개발 키트(SDK)는 OpenMP 및 기타 인기 프로그래밍 모델을 지원한다”고 밝혔다. 또한 데이터 사이언스를 위한 GPU 오픈소스 코드인 래피즈(RAPIDS)는 NERSC의 파이썬 프로그램팀의 작업을 가속화할 것이다. 이는 NERSC의 코리(Cori) 슈퍼컴퓨터의 모든 네트워크 트래픽 분석작업을 CPU 대비 600배 빠르게 분석했다.

팬데믹으로 인한 도전과제의 해결

코로나19 팬데믹에도 불구하고 펄머터는 정상적으로 구축될 예정이다. 그러나 시스템의 엑사스케일급 애플리케이션을 위해 코드를 기반으로 재택근무를 하는 연구원들을 위하여 해커톤을 진행하는 방법과 같은 중요한 단계에 대해 재고해야 했다.

HPE 엔지니어들은 펄머터의 1단계 조립을 도왔으며, NERSC 직원과 협력해 새로운 시스템을 수용할 수 있도록 설비를 업그레이드했다. 새로운 시스템을 수용할 수 있도록 NERSC 직원들과 협력해 설비를 업그레이드했다. 롤린 토마스는 "우리는 특히 모든 코로나19 관련 프로토콜 하에 시스템을 발전시키는 현장 직원들의 노력에 매우 감사한다"고 말했다.

엔비디아의 창립자 겸 CEO 젠슨 황(Jensen Huang)은 "AI와 고성능 컴퓨팅을 융합하는 펄머터의 능력은 재료과학과 양자 물리학뿐만 아니라 기후 예측, 생물학 연구 등에 이르기까지 광범위한 분야에서 돌파구를 마련할 것"이라고 말했다.

NERSC의 데이터분석서비스그룹 대표대행 와히드 빔지(Wahid Bhimji)는 "과학용 AI는 미 에너지부에서 성장을 이루고 있는 분야로, 다양한 개념 검증이 입자물리학, 재료과학, 바이오에너지 분야 등의 생산을 위한 활용 사례로 넘어가고 있다"고 말했다.

또한, 그는 "사람들이 점점 더 큰 신경망 모델을 탐색하고 있으며 더 강력한 리소스에 대한 액세스를 요구하기 때문에, A100 GPU와 더불어 올플래시 파일 시스템, 스트리밍 데이터 기능을 갖춘 펄머터는 AI에 대한 이러한 요구를 적절한 시기에 충족하고 있다"라고 덧붙였다.

펄머터를 통해 작업을 진행하고자 하는 연구자들은 시스템에 대한 액세스 요청을 제출할 수 있다.

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.