엔비디아, AWS와 차세대 인프라 개발 협력 … 대규모 머신 러닝 모델 훈련 및 생성형 AI 애플리케이션 구축

AI 컴퓨팅 기술기업인 엔비디아는 아마존웹서비스(AWS)와 함께 대규모 언어 모델(LLM)과 생성형 AI 애플리케이션 개발을 위한 협력을 진행한다고 23일 밝혔다.

이번 협력에는 최대 20 엑사플롭(exaFLOPS)의 컴퓨팅 성능을 제공하는 엔비디아 H100 텐서 코어(Tensor Core) GPU와 AWS의 최첨단 네크워킹 및 확장성을 기반으로 하는 차세대 Amazon Elastic Compute Cloud(EC2) P5 인스턴스가 사용되며, 이를 통해 세계 최대 규모의 딥러닝 모델을 구축하고 훈련할 전망이다.

P5 인스턴스는 3,200Gbps의 저지연, 고대역폭 네트워킹 처리량을 제공하는 AWS의 2세대 Elastic Fabric Adapter(EFA) 네트워킹을 활용하는 최초의 GPU 기반 인스턴스로 고객들은 EC2 울트라클러스터(UltraCluster)에서 최대 2만개의 H100 GPU를 확장해 AI용 슈퍼컴퓨터급 성능에 온디맨드 방식으로 액세스할 수 있다.

아담 셀립스키 AWS CEO는 "AWS와 엔비디아는 12년이 넘는 긴 시간 동안 협력을 통해 AI/머신러닝, 그래픽, 게이밍, HPC 등 다양한 애플리케이션을 위한 대규모 비용 효율적 GPU 기반 솔루션을 온디맨드 방식으로 제공해 왔고 현재 많은 고객들이 머신러닝 트레이닝 워크로드를 1만개 이상의 GPU로 확장하고 있다”며 “2세대 EFA에서는 P5 인스턴스를 2만개 이상의 엔비디아 H100 GPU로 확장함으로써 스타트업부터 대기업에 이르는 다양한 고객이 즉시 슈퍼컴퓨터 기능을 활용할 수 있다"고 말했다.

젠슨 황 엔비디아 설립자 겸 CEO는 "때마침 가속 컴퓨팅과 AI가 등장했다. 가속 컴퓨팅은 비용과 전력을 절감하면서도 기능 속도를 향상시킴으로써 기업들이 적은 자원으로도 보다 많은 일을 할 수 있도록 지원한다. 생성형 AI는 기업들이 제품과 비즈니스 모델을 재구상하고, 혁신에 휩쓸리는 것이 아니라 스스로 혁신을 일으켜야 함을 일깨워줬다”며 “AWS는 오랜 파트너이자 엔비디아 GPU를 제공한 최초의 클라우드 서비스 제공업체다. 양사의 전문성, 규모, 네트워크를 결합해 고객들을 지원할 수 있게 돼 기쁘다. 고객들은 가속 컴퓨팅과 생성형 AI를 활용해 앞으로의 엄청난 기회를 활용할 수 있을 것”이라고 말했다.

전석희 기자 다른기사 보기