오직 성능, 초격차 전략이 만들어낸 지포스 RTX 30 시리즈와 암페어의 비밀

조회수 2020. 9. 5. 11:00 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

지포스 RTX 30 시리즈와 암페어의 비밀
진정한 세대 교체, 아니 그 이상의 핵폭탄이 PC 시장에 던져졌다.

전세계적인 코로나-19 사태 속에서도 게이머의 희망과 기대를 저버리지 않고 엔비디아가 지포스 RTX 30 시리즈를 공개한 것이다.

독특한 구조와 디자인에 상상했던 것 이상으로 덩치를 키운 자이언드 암페어까지.. 게이머를 흥분시킬 이슈들이 쏟아 졌는데 지금부터 그 실체를 좀 더 자세히 소개해 볼까 한다.

참고로, 이번 기사는 9월 4일 새벽 진행된 에디터스 데이 2020에서 엔비디아가 공개한 자료를 바탕으로 작성 됐으며 라인업 별 세부 성능 자료는 정식 리뷰에서 공개 할 예정이다.
■ 오직 성능 향상, 엔비디아 암페어 아키텍처
레이트레이싱을 모르는 게이머는 없을 것이다. RTX 20 시리즈를 사용하고 있다면 이미 경험도 해 봤을 거고 몇 몇 게임에서 반사와 디테일한 그림자 표현에 놀라기도 했을 것이다.

하지만, 튜링 아키텍처로 시작된 레이트레이싱 기술은 미완에 가까웠다. 기술을 구현하는 자체는 완성 됐지만 이를 게임으로 현실화 하는 부분에서 프레임 하락이 발목을 잡았다.

물론, DLSS라는 인공지능 업스케이링 기술이 부족한 프레임을 채워 준 것도 사실이지만 게이머들의 눈 높이를 맞추기엔 부족한게 많았다.

그래서 일까.. 엔비디아가 공개한 암페어 아키텍처는 성능 향상에 포커스 된 것으로 밝혀졌다.
지금까지 새로운 GPU 아키텍처를 개발하고 발표 했을때와 다르게 그래픽 품질 향상에 초점을 맞춘 신 기술은 거의 없고 성능 향상과 관련 있는 구조 변화가 다수를 차지했다.

사실, 다수라고 할 것도 없는게 엔비디아 GPU 아키텍처의 기본 구조인 SM 내부 CUDA 코어 구성을 기존 FP32+INT에서 (FP32+INT)+(FP32)로 확장한 것이 암페어 아키텍처의 핵심이다.

이러한 변화는 FP32 연산을 2배 빨리 처리하게 만들 수 있을 뿐만 아니라 이전 처럼 FP32와 INT 연산을 동시에 처리할 수 있게 만든다. 물론, FP32+INT와 FP32+FP32를 동시에 할 수 없는 것이 아쉽기는 하지만 FP32 연산을 두배 빨리 처리할 수 있다는 점만으로도 게임 프레임 향상에 엄청난 도움이 된다.

늘어난 FP32 유닛에 맞춰 L1 캐쉬 대역폭을 2배로 늘리고 용량도 33% 향상시켜 더 많은 코어를 수용할 수 있는 L1/텍스쳐 시스템도 적용했다. 튜링에서 사용한 L1/텍스쳐 시스템은 클렁당 64바이트를 전송하지만 암페어는 128바이트를 전송할 수 있으며 실제 대역폭을 따져 보면 RTX 2080S의 116GB/s 보다 1.9배 가까이 증가한 219GB/s인 것이 RTX 3080이라고 한다.
텐서 코어와 RT 코어도 성능이 올라갔다. 레이트레이싱과 딥러닝을 처리하는 이 두 프로세서는 2세대와 3세대로 업그레이드 되면서 코어 당 처리능력이 크게 개선 됐고 그 결과 종전 세대 대비 2배에 이르는 처리 능력을 제공할 수 있게 됐다.

특히, 2세대로 진화한 RT 코어는 시간 차이에 따른 모션 블러 현상을 계산하고 이를 표현할 수 있도록 구조가 약간 변경되어 기존 방식으로 처리하는 것 보다 5배나 빨라졌다는 것이 엔비디아측 설명이다.

실제 블랜더로 측정한 결과에서도 모션 블러에만 5분 가까이 소요되던 작업이 RTX 3080에선 해당 작업만 1분 내외로 크게 단축된 것으로 나타났다.
텐서 코어는 RT 코어나 쿠다 코어 보다 성능 향상이 더 크다. SM 당 텐서 코어 구성은 절반으로 줄었지만 암페어 아키텍처는 정밀도를 낮춰 성능을 크게 높이는 기술이 적용됐다. 처리할 수 있는 작업 수만 비교해도 최소 2배에서 4배까지 증가한 것이 암페어의 텐서 코어다.

지포스 RTX 3080은 전체 텐서 코어 구성은 줄었지만 3세대 텐서 코어만의 기술적 특성으로 인해 FP16 DL TFLOPS와 int8 DL TOPs가 각각 2.67배씩 증가한 것으로 소개됐다.
연산 유닛 개수의 급격한 증가와 처리량 폭증에 맞춰 메모리 대역폭도 크게 개선됐다. 튜링에서 선보인 GDDR6 보다 데이터 전송율을 더 높이기 위해 마이크론이 만들어낸 GDDR6X를 지포스 RTX 30 시리즈에 채택했다.

GDDR6X는 GDDR6의 고클럭 버전처럼 보이지만 시그널 구조를 PMA4로 변경한 것이다. 기존까지 사용하던 NRZ 보다 절반의 클럭 만으로 데이터 전송을 실현하는 이 기법의 도입으로 인해 더 높은 대역폭을 실현하면서 동시에 전력 효율까지 개선시켰다는 것이 마이크론 측 설명이다.

덕분에 지포스 RTX 30 시리즈의 메모리 대역폭은 종전 버스 구성을 그대로 유지하면서도 큰 폭으로 증가했다.

엔비디아가 비교에 자주 등장시킨 RTX 3080도 종전 보다 1.5배 이상 증가한 760GB/s의 메모리 대역폭을 사용할 수 있게 설계됐다.
■ 8K 게이밍을 현실로 만든 지포스 RTX 3090과 DLSS
지포스 RTX 3090의 정체는 이미 공개 됐지만 아직까지 그 속살은 공개되지 않았다.

전체 쿠다 코어 개수가 1만개를 넘어 역대 최고인 10,496개로 구성 됐고 FP32 연산 성능이 36 TFLOPS이며 RT 코어 성능이 70 TFLOPS, 텐서 코어 성능이 285 TFLOPS라는게 전부다.

하지만, 이 자료만 보더라도 지포스 RTX 3090가 최고라는 인정할 수 밖에 없다.

튜링 세대 최고가, 최고 성능 그래픽카드였던 타이탄 RTX가 4,608개의 쿠다 코어에 FP32 연산 성능이 16 TFLOPS 였고 RT 코어와 텐서 코어 성능이 49, 131 TFLOPS니 지포스 RTX 3090의 성능을 의심할 자는 아무도 없을 것이다.

그러나, 지포스 RTX 3090로 어떤 게이밍 환경을 실현할 수 있는가는 다른 이야기다.
지포스 RTX 3090가 4K 환경을 넘어섰다는 것은 누구나 인정하는 부분이고 그 다음 세상이 될 8K를 실현할 수 있느냐가 모든 게이머들의 관심사다.

엔비디아도 이점을 알고 있기에 8K 게이밍을 전면에 내세웠는데 구체적인 건 테스트해 봐야 알겠지만 순수 랜더링 성능 만으로도 60FPS 정도는 충분한 게임들이 꽤 있는 것으로 보인다.

비교적 사양이 높지 않은 Apex Legends도 그렇고 데스티니2와 포르자 호라이즌4 처럼 어느 정도의 사양을 요구하는 게임들도 8K 해상도에서 60FPS 이상을 실현한 것으로 나와있다.

워낙 사양이 높은 데스 스트랜딩이나 RTX ON이 적용된 컨트롤, 울텐슈타인:영블러드 같은 게임들은 DLSS를 통해 부족한 프레임을 보충할 수도 있다는데 이 정도면 약간의 타협만으로도 거의 모든 게임에서 8K60을 실현할 수 있지 않을까 생각된다.

참고로, 지포스 RTX 3090과 8K 게이밍은 이달 말로 예정된 리뷰에서 자세히 다뤄볼 생각이다.
DLSS는 버전이 2.1로 업데이트 됐다. 소문으로 들렸던 3.0은 그냥 루머 였던 것 같고 2.1로 업데이트 되면서 8K DLSS가 추가됐다. 아직 제공된 자료가 많지 않아 관련 내용이 많지 않지만 울트라 퍼포먼스라는 모드가 추가되면서 RTX 3090으로 9배 업스케일을 처리할 수 있게 됐다고 한다.

그외에는 VR 콘텐츠도 DLSS를 지원하게 됐다고 하고 동적 해상도와 관련된 부분도 추가 됐는데 이와 관련된 내용은 RTX 3080 리뷰에서 좀 더 자세히 다룰 예정이다.
■ 독특한 쿨링 구조, 소음과 온도를 모두 잡았다
지포스 RTX 30 시리즈의 또 다른 특징은 FE 모델에 많은 변화가 생겼다는 것이다. 기존에도 블로워팬이나 듀얼 팬을 사용하는 등 쿨링 구조를 바꿔 왔지만 이번 만큼 모험적인 건 처음이다.

엔비디아는 GPU 쿨링을 극대화 하고 소음을 낮추기 위해 새로운 쿨링 시스템을 개발했다. 이 쿨링 시스템은 대형 히트 싱크와 팬을 사용하는 전통적인 방식이지만 케이스 내부 공기 순환에 맞춰 쿨링 성능을 최적화 하기 위해 전혀 다른 접근법이 시도 됐다.
케이스 전면에서 빨아들인 차가운 공기가 그래픽카드를 거쳐 후면 배기팬으로 원활하게 흘러 갈 수 있도록 설계 했는데 이를 위해 PCB 사이즈를 극단적으로 작게 했다.

그래픽카드 전체 크기는 종전 세대와 큰 차이는 없지만 PCB 사이즈를 최대한 줄이고 남은 영역에 대형 히트 싱크와 쿨링 팬을 배치했다.

이렇게 하면 케이스 전면에서 빨아들인 공기가 그래픽카드를 통과해 배기팬으로 흘러가게 되는 자연적인 흐름을 만들어 낼 수 있다.

엔비디아는 이러한 구조 변화를 통해 RTX 3080 기준으로 종전 세대인 RTX 2080 보다 10db 조용하고 20도 더 낮은 온도를 실현 했다고 소개했다.
RTX 3080 보다 덩치가 훨씬 크고 PCIe 슬롯 3개나 점유하는 RTX 3090은 효과가 더 좋다는데 타이탄 RTX 보다 온도가 30도 낮고 20dB이나 소음이 적다니 성능과 소음, 발열 모든 면에서 지포스 RTX 3090은 역대급 제품이 되지 않을까 한다.

엔비디아가 공개한 그래프 상 지포스 RTX 3090은 80도에서도 소음이 20 dB일 만큼 매우 소음이 적다. 통상적인 GPU 작동 온도인 70도대로 내려가도 25~30 dB 수준이라니.. 성능 보다 저소음이 우선인 게이머들에게도 최고의 선택이 될 수 있을 전망이다.
■ AV1 풀 디코드, 8K60 실시간 재생
지포스 RTX 30 시리즈, 암페어 GPU 아키텍처의 미디어 엔진은 AV1 디코더가 추가된 것이 전부다. 인코더는 종전 세대와 동일하고 오직 디코더에만 AV1이 추가 됐다.

이 때문에 미디어 가속이나 인코딩 환경에서 지포스 RTX 30 시리즈에 대한 실망도 있을 텐데 미리 실망할 필요는 없다.

일단, AV1을 8K 60까지 지원할 수 있다는 것 만으로도 엄청난 발전이다.

AV1은 H.265 그러니까 HEVC를 대신하고자 업계에서 개발해낸 영상 압축 기술로, 라이센스가 없다는 장점 때문에 가업과 OTT 서비스, 스트림 서비스 업계가 도입을 추진하고 있다.

구글는 유튜브 8K 스트리밍에 이미 AV1을 적용했고 8K Ultra HD TV를 선보인 삼성과 LG도 8K60 기준으로 AV1 영상을 재생할 수 있게 준비해 왔다. 넷플릭스도 일부 플래폼에서 AV1을 활용하기 시작해 차세대 미디어 환경에서 AV1이 차지하는 비중은 더욱 커질 전망이다.

방송 쪽은 어떻게 흘러갈지 모르겠지만 결국 AV1 가속은 필요할 수 밖에 없고 엔비디아가 지포스 RTX 30 시리즈에 AV1 가속을 추가했으니 차세대 미디어 환경 변화도 걱정할 필요가 없다.

8K 환경의 또 다른 핵심인 HDMI 2.1도 지포스 RTX 30 시리즈라면 걱정할 필요가 없다. 아직 드라이버가 없어 확인은 못 했으나 HDMI 2.1에서 제공할 수 있는 최고 대역폭이 제공될 것으로 보인다.

엔비디아가 공개한 공식 스펙에도 8K HDR 60Hz를 HDMI 2.1 + DSC로 제공한다고 나와 있다.
■ 그래픽카드 세계의 원펀맨, 지포스 RTX 30 시리즈
얼마 전 재미있게 본 애니메이션이 있다.

그 어떤 괴수도 주먹 한방에 날려버리는 주인공, 그 힘의 차이를 비교 조차 할 수 없는 원펀맨 이라는 애니메이션인데 엔비디아가 노린 것이 바로 원펀맨, 쉽게 말해 초격차 전략이지 않을까 생각한다.

경쟁사는 따라 올 수 없을 만큼 앞서 나가서 절망에 빠트리는 초격차 전략, 지금 지포스 RTX 30 시리즈가 딱 그런 모습이다.

예전처럼 30~40% 내외의 성능 향상도 아니고 거의 두 배라니.. 거기다 가격은 그대로니 이건 누가 봐도 목적이 있다고 볼 수 밖에 없다.

지난 해 슈퍼 시리즈를 등장하게 만든 것에 대한 보답 차원이라고 할까... 어쨌거나 차세대 GPU 아키텍처와 경쟁 모델 투입을 준비 중인 AMD 입장이 꽤 난처해진 건 사실이다. 덕분에 게이머와 소비자들은 그 어떤 지포스 세대 보다 훨씬 큰 선물을 가져가게 됐지만 말이다.
이 콘텐츠에 대해 어떻게 생각하시나요?