차세대 스마트폰 두뇌, Arm Cortex-A78 CPU, Mali-G78 GPU, Ethos-N78 NPU 특징은?

조회수 2020. 5. 27. 17:27 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

5nm 공정 기반 차세대 모바일 프로세서 마이크로 아키텍처 선보여
Arm에서 새로운 모바일 칩셋에 들어갈 CPU 및 GPU, NPU IP를 발표했다.


Arm은 26일(현지시간) 차세대 모바일 솔루션을 위한 Cortex-A78 CPU와 Mali-G78 GPU, Ethos-N78 NPU을 공개했다. 또한 새로운 Arm Cortex-X 커스텀 프로그램을 제공한다고 밝혔다.

5nm 공정 기반으로 성능 향상된 Cortex-A78 CPU

새로운 Arm Cortex-A78 CPU는 전력 및 면적 효율성 향상과 성능 향상 요구에 부응하는 모바일용으로 설계된 가장 효율적인 Cortex-A CPU다.
5nm 제조 공정(5FF)을 기반으로 설계된 Cortex-A78 CPU는 7nm 공정(7FF)을 쓰는 이전 세대 Cortex-A77 CPU와 비교해 동일한 전력 기준으로는 20% 성능 향상을 제공한다. Cortex-A77 CPU가 2.8GHz로 동작할 때 소모하는 전력 기준으로 Cortex-A78 CPU는 3.0GHz 클럭 동작이 가능하기 때문이다.

또한 Cortex-A77 CPU가 2.3GHz로 동작해서 낼 수 있는 성능을 Cortex-A78 CPU는 2.1GHz에서 제공하며, 이 경우 50%의 에너지 절약이 가능하다. Arm은 전력 효율 및 에너지 효율을 결합한 Cortex-A78은 지속적인 성능에 중점을 두어 새로운 장치 폼 팩터에서 하루 이상의 몰입형 5G 경험을 제공할 수 있다고 말한다.
AAA급 모바일 게임에서는 Cortex-A78 CPU와 함께 발표된 Arm Mali-G78 GPU와 결합해 고화질 게임 경험을 모바일로 가져오는데 도움을 주고 스마트폰에서 배터리 수명을 연장하여 장시간 게임을 즐길 수 있도록 돕는다. Arm를 유니티(Unity)와 협력으로 버스트 컴파일러의 성능을 안드로이드로 가져와 멀티 프로세서 성능 및 전원 관리를 한층 강화했다고 설명하고 있다.

새로운 CPU는 모든 유형의 머신러닝(ML) 기반 워크로드 및 작업을 유연하게 실행할 수 있도록 스마트폰에 가장 널리 사용되는 실제 애플리케이션 및 사용 사례를 지원한다. 기존 Cortex-A77 CPU와 비교해 ML 기반 작업에 평균 8% 낮은 전력을 사용해 전체적으로 10% 효율성을 향상시켰다.
Arm에 따르면 Cortex-A78 CPU는 이전 세대와 동일한 아키텍처를 가지고 있지만 5nm 공정을 활용해 면적과 전력 효율성을 바탕으로 성능을 향상시키는 마이크로 아키텍처 기능을 추가했다.

2019년 출시한 Cortex-A77 CPU 마이크로 아키텍처는 전년도에 발표한 Cortex-A76과 마찬가지로 7nm 공정을 기반으로 설계됐기 때문에 성능을 높이기 위해서는 CPU 면적과 소비 전력이 그만큼 늘어나야 했다.

Cortex-A78 CPU 마이크로 아키텍처는 보다 큰 분기 예측 추가 및 기능 최적화로 이전 세대에 비해 단일 스레드 성능이 7% 향상됐으며, L1-I 및 L1-D와 같은 성능과 면적이 낮은 구조를 줄여 효율성을 극대화하고 브랜드 예측 구조와 같이 전력 소비를 줄이도록 기존 구조를 최적화해 같은 성능 기준 소비 전력은 4%, 면적은 5% 줄였다.
Cortex-A78이 포함된 DynamicIQ 클러스터는 동급 최고의 효율성으로 지속적인 성능에 집중한다. 기존 옥타코어 구성에 사용된 4x Cortex-A77 CPU 및 4x Cortex-A55 CPU의 DynamicIQ 클러스터는 고성능 CPU 쪽을 4x Cortex-A78 CPU로 업그레이드 할 수 있어 15% 적은 면적에서 20% 지속적인 성능 향상을 제공한다.
5nm 공정 기반으로 같은 성능의 SoC(System on Chip)를 더 작은 크기로 만들 수 있으므로 칩셋 공간이 제한될 수 있는 폴더블 스마트폰 같은 새로운 장치 설계에 이상적이다.

고성능 CPU 만들어줄게, Arm Cortex-X 커스텀 프로그램

Arm에서 발표한 Cortex-X Custom Program (이하 CXC 프로그램)은 Arm 엔지니어링 팀과 긴밀한 협력을 통해 파트너들이 특정 시장 요구를 충족시키기 위해 최종 CPU 제품을 구성할 수 있다.

이를 통해 프로그램 파트너는 일반적인 Cortex-A 성능(Performance), 전력(Power), 면적(Area) 등 PPA 설계 범위를 벗어난 자체 성능 포인트를 정의할 수 있다.
Arm이 설계 및 제작한 최상 커스텀 CPU는 Arm Cortex-X 브랜드로 제공되며, CXC 프로그램의 일부인 최초의 CPU는 Arm Cortex-X1 CPU다. Arm Cortex-X1은 현재 가장 강력한 Cortex CPU로 기존의 Cortex-A77 CPU와 비교해 최대 30% 향상된 성능으로 차세대 커스텀 솔루션을 위한 최고의 성능을 제공하도록 설계됐다.
Cortex-X1은 이번에 새로 발표한 Cortex-A78 CPU와 비교해 22%, 이전 세대 Cortex-A77 CPU보다 30% 높은 의 단일 스레드 정수 연상 성능 개선을 구현했으며, Cortex-A77 대비 2배의 머신러닝(ML) 성능 향상으로 온 디바이스 인텔리전스가 크게 향상된다.

4x Cortex-A78 CPU 및 4x Cortex-A55 CPU의 DynamicIQ 클러스터는 4x Cortex-A77 및 4x Cortex-A55 클러스터에 비해 20%의 지속적인 성능 향상을 제공했는데, 여기에 Cortex-X1을 도입하면 최대 성능이 향상되어 시스템 확장성이 훨씬 높아진다. 만약 3x Cortex-A78 및 4x Cortex-A55 CPU와 함께 DynamicIQ의 일부로 1x Cortex-X1을 추가하면 최고 성능은 이전 세대보다 30% 증가하게 된다.
기존 Cortex-A75/76/77 기반 고성능 CPU를 동작 클럭을 세분화해 싱글 또는 듀얼 코어 CPU만 따로 만들었던 제조사들은 Cortex-X1을 추가해 최고 성능 CPU를 별도로 구성하면 관련 작업 뿐만 아니라 스마트폰 벤치마크 앱에서 싱글 코어 점수가 더 향상되는 효과를 기대할 수 있다.
Arm은 최고 성능을 위해 Cortex-X1의 마이크로 아키텍처를 업그레이드 하여 Cortex-A78보다 디코드 대역폭이 25% 증가한 한 사이클 당 5개의 명령어 디코드를 지원하고, MOP 캐시 처리량도 주기당 8 MOP로 33% 증가시켰다. Neon 엔진은 2개의 추가 파이프를 가져와 Cortex-A78 대비 계산 용량이 2배가 됐다.

여기에 Cortex-X1은 64KB L1 및 최대 1MB L2 캐시를 지원하며, DynamicIQ 클러스터도 이제 최고 성능을 위해 8MB L3 캐시를 지원하도록 업그레이드 되어 Cortex-X1과 함께 사용할 경우 Cortex-A78 CPU도 늘어난 L3 캐시 효과를 누리게 된다.

Arm은 Cortex-X1이 CXC 프로그램이 생성할 수 있는 Cortex CPU의 첫 번째 사례이며, CXC 프로그램의 일환으로 가입 파트너들이 Arm과 협력해 시장 요구에 맞는 CPU 스펙 및 Cortex-A CPU와 차별화된 로드맵을 가질 수 있다고 설명했다.

이는 최근 모바일 시장에서 벌이는 여러가지 움직임이 커스텀 CPU 설계의 중요성을 부각시켰기 때문으로 보인다. 삼성전자의 자체 CPU 개발 인력 정리, 미중 무역 갈등으로 자체 CPU 개발에 나서야 하는 중국 업체들, Arm 기반 PC 가능성을 꾸준히 타진하는 애플과 마이크로소프트 등 고성능 Arm CPU 커스텀 제품이 필요한 상황이다.

모바일에서 몰입형 엔터테인먼트 경험, Mali-G78 GPU

Arm Mali-G78 GPU는 지난 해 출시된 새로운 발할(Valhall) 아키텍처를 기반으로 한 Mali-G77에서 한 단계 업그레이드 됐다.

25% 향상된 성능으로 모바일에서 PC 및 콘솔 게임과 비슷한 고품질 게임 환경을 제공하며, 모바일 기기에서 더욱 복잡한 게임, 비디오, 카메라 및 보안 머신러닝(ML) 기능을 활성화하는데 도움이 되는 ML 성능을 향상시킨다.
모바일 게임 시장의 빠른 성장으로 포트나이트, 배틀그라운드 같은 더 많은 프리미엄 게임 타이틀이 모바일에 등장하고 있으며, Mali-G78은 이러한 PC 및 콘솔과 유사한 게임 경험을 모바일에서 가능하게 만드는데 필요한 성능 향상을 제공한다.
이를 위해 Mali-G78 GPU는 최대 24개의 코어 지원, 비동기적 최상위 등급(Asynchronous Top Level), 타일러(Tiler) 개선, 그리고 조각화 의존 추적(Improved fragment dependency tracking) 등 4가지 주요 기능을 향상시켰다.

Mali-G77에서 최대 16개였던 GPU 코어 갯수를 24개까지 늘리고 비동기식 최상위 레벨로 모든 코어에서 성능이 효율적이고 효과적으로 전달되도록 해서 모바일 게임에서 최대한 높은 성능을 발휘하고 생산성을 극대화했다.
타일러 개선은 PC나 콘솔에서 모바일로 옮겨온 게임들이 매우 복잡한 장면(scenes) 및 정교한 자산(assets)으로 성능 문제와 병목 현상이 발생하지 않도록 GPU 버텍스 로드를 감소시켜 게임 성능을 향상시킨다.

조각화 의존 추적 향상은 연기, 나무, 잔디와 같은 복잡한 게임 장면이 있는 모바일 게임에서 기존 Mali-G77과 비교해 최대 17% 성능 향상을 볼 수 있다.
출처: Crytek 홈페이지
Arm은 게임 그래픽 품질로 유명했던 크라이시스에 사용된 게임 엔진 크라이엔진(CRYENGINE)을 안드로이드 모바일 생태계에 제공하기 위해 크라이텍(Crytek)과 협력하고 있으며, 크라이텍 및 구글과 긴밀히 협력해 모바일 크라이엔진 테크 데모 'Neon Noir'가 Arm Mali GPU에서 Vulkan API를 활용해 뛰어난 그래픽 충실도를 달성하도록 했다고 설명했다.
GPU 성능 향상 뿐만 아니라 안정적인 시스템 관점에서 모바일 장치의 배터리 수명을 늘리기 위해 Mali-G78은 15% 성능 밀도 향상과 함께 에너지 효율도 10% 향상됐다. 비동기식 최상위 레벨을 사용해 소비 전력을 줄이면서 콘텐츠는 지속 가능한 방식으로 생성된다. 이는 장치가 원하는 프레임 속도로 콘텐츠를 출력할 때 에너지를 절약하기 위해 클럭을 낮출 수 있다는 뜻이다.

비동기식 최상위 레벨을 높이면 약간 더 많은 전력을 사용하지만 전체 GPU 소비 전력의 90~95%를 사용하는 세이더 코어의 동작 클럭을 낮춤으로써 소비 전력 절감 효과가 훨씬 더 높다는 것이 Arm의 설명이다.

Mali-G78의 에너지 효율을 높이는 또 다른 중요한 기능은 새로운 FMA(Fused Multiplay-Add)인데, 처음부터 완전히 재설계되어 GPU 내부에서 발생하는 대부분의 계산을 담당하며 장치 에너지를 30% 줄일 수 있다.
GPU의 주요 기능은 그래픽 처리지만 특유의 병렬 데이터 처리 기능은 ML 워크로드 실행에 적합하다. CPU와 NPU는 ML의 기본 프로세서 역할을 맡고 있으나 유스 케이스가 더 복잡해지면서 장치의 보안 기능, 카메라 및 비디오 모드, 증강현실(AR) 같은 일부 애플리케이션 작업은 GPU로 오프로드 된다.

예를 들어 사진이나 비디오를 찍을 때 AR 이모티콘을 적용하면 GPU가 얼굴의 감정을 감지해 적절한 이모티콘을 자동 선택하거나, 사진 및 비디오 프레임에서 얼굴 추적을 수행할 때도 GPU를 쓸 수 있다. 또한 AR 기능을 사용하는 모바일 게임 앱처럼 컴퓨팅 집약적인 AR 기반 애플리케이션도 GPU의 ML 덕분에 스마트폰에서 실행 가능하다.

이런 다양한 ML 기반 작업을 수행하기 위해 Mali-G78은 이전 세대보다 다양한 ML 워크로드에 대해 평균 15%의 성능 향상을 보여주며, 비동기식 최상위 레벨에서 세이더 클럭을 조절하는 것이 ML 성능을 높이는데 중요하게 작용한다.
Arm은 고성능 Mali-G78과 함께 새로운 서브 프리미엄 GPU인 Mali-G68도 출시한다.

Mali-G68 GPU는 내년에 나올 2021 디바이스를 위한 최초의 서브 프리미엄 Mali GPU로 타일러 개선 및 실행 엔진의 새로운 FMA 유닛과 같은 Mali-G78의 모든 기능을 제공하지만 최대 GPU 코어 숫자가 24개가 아닌 6개까지만 지원한다. 따라서 저렴한 비용으로 프리미엄 수준에 가까운 성능을 원하는 사용자를 위한 대안이다.

Arm은 Mlai-G68과 같은 서브 프리미엄 GPU 계층은 디바이스 포트폴리오 전체에서 프리미엄 기능과 기술을 확장하려는 파트너들의 의견을 듣고 개발되었으며, 여러 GPU 설계에 필요한 설계 및 레이아웃 작업의 비용 절감을 위해 설계 작업을 재사용하고 더 낮은 실리콘 영역으로 축소할 수 있다고 설명했다.
그 밖에 Arm은 Mali GPU 제품을 지속적으로 개선할 뿐만 아니라 전반적인 개발자 경험을 향상시키는 주요 에코 시스템 파트너십 및 도구를 만들고 있으며, 유니티(Unityu)와의 파트너십이 개발자 경험을 향상시키고 기본적으로 Mali GPU 기반 게임 성능을 향상시킬 것으로 기대했다.

유니티와 협력해 버스트 컴파일러 성능을 안드로이드로 가져와 멀티 프로세서 성능 및 전원 관리를 향상시킨다. 또한 자체 성능 분석 기능을 유니티 툴과 통합하여 보다 원활한 개발자 경험을 제공하고 Arm 기술의 유니티 성능을 향상시킨다.

Arm은 유니티 게임 엔진은 모든 모바일 게임의 50% 이상을 차지하며 이번 협력으로 유니티를 사용하는 개발자는 코드를 최적화하는 시간을 줄이고 매력적인 콘텐츠를 작성하는데 더 많은 시간을 할애할 수 있을 것으로 기대했다.

머신 러닝 성능 25% 향상시킨 2세대 NPU Ethos-N78

일상생활에서 생성되는 방대한 양의 데이터와 정보는 인공지능(AI)이 발전함에 따라 인류에게 놀라운 혜택을 제공하는데 사용될 수 있다. 다만 이런 과제를 실현하고 유용한 정보를 추출하려면 이런 데이터가 생성된 위치에서 바로 처리될 수 있어야 한다.

Arm 프로세서를 사용하면 ML 워크로드는 전세계 거의 모든 스마트폰에 들어가고 다양한 장치에서 사용되는 Cortex-A CPU에서 실행된다. 그러나 ML은 성능과 효율성을 기하급수적으로 개선하는 특수한 NPU(Neural Processing Unit)을 사용할 수 있다.
Arm Ethos-N78은 확장성이 뛰어나고 효율적인 2세대 NPU로 기존 Ethos-N77 NPU의 성공을 기반으로 장치내 ML 처리를 지원하며, 1~10 TOP/s 성능 범위에서 사용할 수 있고 다양한 구성을 지원한다. 90개가 넘는 고유한 구성을 지원하고 파트너사 MAC, SRAM 크기 및 벡터 기능을 구성할 수 있도록 실리콘 파트너에게 전례없는 유연성을 제공한다.
이전 세대보다 최대 30% 더 높은 면적 효율성을 제공하므로 파트너는 더 적은 실리콘 면적에서 더 많은 것을 달성할 수 있다. 실리콘 면적 뿐만 아니라 DRAM 대역폭도 적게 사용하도록 특별히 설계되어 추론당 DRAM 데이터를 최대 40%까지 줄이므로 파트너는 더 적은 메모리를 사용해 ML을 구현하여 시스템 전력 및 비용을 더 줄일 수 있다.
Ethos-N78 소프트웨어 스택은 TVM 컴파일러를 기반으로 하는 오프라인 컴파일 플로우와 Arm NN 기반의 안드로이드 NN API와 함께 사용하기 위해 해석된 플로우를 선택할 수 있다. 오프라인 및 온라인 플로우는 모든 대상 Arm 하드웨어 IP (CPU, GPU, NPU)에서 통합되어 한 번만 작성하면 어디서나 배포할 수 있다. 모든 인기있는 프레임 워크를 지원해 개발자는 자신이 선호하는 프레임 워크를 계속 사용할 수 있다.

이미지 및 내용 출처: Arm
이 콘텐츠에 대해 어떻게 생각하시나요?