화웨이의 큰 진전

SCMP 에 따르면, 새로운 기술 보고서에 따르면 화웨이의 Ascend AI 프로세서가 DeepSeek R1 인공지능 모델 테스트에서 엔비디아 GPU의 성능을 능가했습니다. 이는 미국의 기술 통제 명령에 직면한 상황에서 화웨이가 중요한 진전을 이룬 것을 의미합니다.

화웨이와 AI 인프라 스타트업 실리콘플로우(SiliconFlow) 연구진이 공동 집필한 이 논문은 클라우드매트릭스 384 데이터 센터의 아키텍처를 자세히 설명합니다. 이 아키텍처는 대규모 언어 모델(LLM)의 방대한 워크로드를 처리하도록 특별히 설계된 "칩 기반 AI 슈퍼시스템"입니다.

CloudMatrix 384는 384개의 Ascend 910C 프로세서와 192개의 Kunpeng CPU로 구성되어 있으며, 낮은 지연 시간과 높은 대역폭을 제공하는 통합 버스 시스템으로 서로 연결됩니다. 화웨이는 이 아키텍처를 통해 AI 인프라의 기반을 재편할 것으로 기대합니다.

이 플랫폼을 기반으로 구축된 CloudMatrix-Infer 시스템은 DeepSeek R1 모델 배포 시 탁월한 성능을 보여줍니다. 사전 채우기 단계에서 시스템은 사용자로부터 4,000개의 토큰 요청을 처리할 때 NPU당 초당 6,688개의 토큰 처리량을 달성했습니다. 이는 TFLOPS(초당 조 단위 연산)당 초당 4.45개의 토큰 처리량에 해당합니다.

디코딩 단계에서 CloudMatrix는 NPU당 초당 1,943개의 토큰을 처리하는 처리량을 기록했으며, 토큰당 응답 시간은 50밀리초 미만이었습니다. TFLOPS당 초당 1.29개의 토큰을 처리하는 이 성능은 H100 GPU를 사용하는 Nvidia의 SGLang 시스템이나 DeepSeek R1을 구동하는 H800 GPU 플랫폼보다 높습니다.

이 연구의 주저자이자 화웨이의 "천재 청년" 프로그램 회원인 줘펑페이(Zuo Pengfei)에 따르면, 이 보고서의 목적은 업계가 중국에서 개발한 어센드(Ascend) NPU의 역량을 완전히 이해하도록 돕는 것입니다. 그는 지후(Zhihu) 플랫폼에서 이 보고서가 화웨이 클라우드매트릭스(CloudMatrix)의 기술적 역량을 명확하게 보여준다고 단언했습니다.

화웨이가 Ascend 910C AI 가속기에 대한 기술 세부 정보를 공개한 것은 이번이 처음입니다. 이 보고서는 또한 화웨이 창업자 런정페이가 Ascend 칩이 미국 경쟁사보다 "한 세대 뒤처져 있다"고 최근 언급한 내용을 재차 강조합니다. 런정페이는 "스태킹 및 클러스터링"과 같은 기술을 적용함으로써 화웨이가 오늘날 가장 발전된 AI 시스템에 필적하는 컴퓨팅 성능을 달성할 수 있었다고 강조했습니다.

한편, 엔비디아의 CEO 젠슨 황도 CNBC 와의 인터뷰에서 AI는 병렬 처리 문제이며, 컴퓨팅 능력이 충분하지 않다면 더 많은 프로세서가 필요할 것이라고 인정했습니다.

출처: https://znews.vn/buoc-tien-lon-cua-huawei-post1562828.html