엔비디아 베라루빈 차세대 AI GPU 완벽 정리

엔비디아 베라루빈이 대체 뭐길래 AI 업계가 이렇게 난리인 걸까요. 블랙웰 대비 추론 성능 5배, 와트당 효율 10배라는 숫자를 보고 솔직히 처음엔 과장이라고 생각했거든요.

2026년 1월 CES에서 젠슨 황 CEO가 베라루빈 플랫폼을 공개한 순간부터 분위기가 확 바뀌었어요. GPU 하나만 바꾸는 게 아니라 CPU, 네트워크 칩, 스위치까지 6개 칩을 전부 새로 설계했다는 발표에 현장이 술렁였거든요. 그리고 2026년 3월 16일 GTC 키노트에서는 여기에 Groq 3 LPX까지 추가한 7번째 칩 구성을 발표했고, 블랙웰과 베라루빈을 합쳐 2027년까지 1조 달러 규모의 주문을 예상한다는 이야기까지 나왔어요.

근데 막상 찾아보면 정보가 여기저기 흩어져 있어서 한눈에 파악하기가 쉽지 않더라고요. 루빈 GPU 스펙은 어디서 보고, 베라 CPU는 뭐가 다른 건지, NVL72 랙 시스템은 또 뭔지. 그래서 NVIDIA 공식 자료와 GTC 2026 키노트 내용을 기반으로 베라루빈 플랫폼의 핵심을 한 페이지에 정리해봤어요.

베라루빈 플랫폼이 뭔지 30초 만에 이해하기

베라루빈은 단순히 GPU 하나를 교체하는 업그레이드가 아니에요. 엔비디아가 6개 칩을 동시에 새로 설계해서 하나의 시스템으로 통합한 '익스트림 코-디자인' 플랫폼이거든요. 이름은 암흑물질 증거를 발견한 미국 천문학자 베라 루빈에서 따왔어요.

6개 칩 구성을 정리하면 이렇습니다.

칩 이름	역할	핵심 특징
루빈 GPU	AI 연산 엔진	336B 트랜지스터, HBM4 288GB, 50 PFLOPS NVFP4
베라 CPU	데이터 이동·오케스트레이션	올림푸스 코어 88개, LPDDR5X 1.5TB
NVLink 6 스위치	GPU 간 통신	GPU당 3.6TB/s 대역폭
ConnectX-9	스케일아웃 네트워킹	GPU당 1.6Tbps
BlueField-4 DPU	인프라 관리·보안	64코어 Grace CPU 내장, 800Gb/s
Spectrum-6 스위치	이더넷 연결	코-패키지드 옵틱스

젠슨 황 CEO가 CES 키노트에서 했던 말이 인상적이었어요. "무어의 법칙은 둔화했고, 트랜지스터 집적도 향상만으로는 매년 10배씩 커지는 AI 모델을 감당할 수 없다"면서, 시스템 전체를 하나로 설계하는 방식으로 한계를 넘었다는 거죠. 실제로 이전 블랙웰 세대까지는 한 번에 1~2개 칩만 바꿨는데, 이번에는 6개를 동시에 갈아엎었어요.

베라루빈의 세대별 위치가 궁금하다면 블랙웰에서 베라루빈으로 넘어가면서 정확히 뭐가 달라졌는지, 핵심 수치로 비교한 글이에요. 스펙 차이를 한눈에 확인할 수 있어요. 블랙웰 vs 베라루빈 성능 비교 확인 →

루빈 GPU 핵심 스펙 — 블랙웰과 뭐가 달라졌나

루빈 GPU의 숫자들을 처음 봤을 때 솔직히 한 세대 만에 이 정도 차이가 난다고? 싶었어요. 확인해보니 진짜였거든요.

트랜지스터와 공정

루빈 GPU는 TSMC 3nm 공정으로 제조되고, 트랜지스터 수는 3,360억 개예요. 블랙웰이 2,080억 개였으니 약 1.6배 늘어난 거죠. 다이 구성은 블랙웰과 동일하게 듀얼 다이 설계를 유지하면서 스트리밍 멀티프로세서(SM) 224개에 5세대 텐서 코어를 탑재했어요.

연산 성능

여기서 가장 눈에 띄는 게 NVFP4 추론 성능이에요. 블랙웰이 10 PFLOPS였는데 루빈은 50 PFLOPS로 5배 뛰었어요. 훈련 성능도 10 PFLOPS에서 35 PFLOPS로 3.5배 올라갔고요. 이게 가능했던 건 단순히 트랜지스터를 더 넣은 게 아니라, NVFP4 텐서 코어라는 새로운 정밀도 기술 덕분이에요. 트랜스포머 모델의 각 계층에 맞춰 정밀도를 동적으로 조절하는 방식인데, 높은 처리량이 필요한 곳은 4비트로 낮추고 정확도가 중요한 곳은 8비트로 올리는 식이죠.

메모리 대역폭

HBM4 메모리를 탑재해서 GPU당 288GB 용량에 22TB/s 대역폭을 지원해요. 블랙웰이 HBM3e 192GB에 8TB/s였으니 대역폭이 약 2.8배 넓어진 셈이에요. 긴 컨텍스트 추론이나 대규모 MoE(Mixture of Experts) 모델을 돌릴 때 병목이 크게 줄어드는 부분이에요.

📊 실제 데이터

NVIDIA 공식 스펙 기준, 루빈 GPU는 블랙웰 대비 NVFP4 추론 5배·훈련 3.5배·메모리 대역폭 2.8배·NVLink 대역폭 2배 향상. 트랜지스터 3,360억 개(TSMC 3nm), HBM4 288GB 탑재. (출처: NVIDIA Developer Blog, 2026년 1월)

베라 CPU — 왜 GPU만으로는 안 되는 건지

GPU 성능만 올리면 되는 거 아닌가? 처음에 그렇게 생각했는데, 찾아보니 전혀 아니었어요.

수천 개 GPU를 동시에 돌리는 AI 팩토리에서는 데이터를 얼마나 빠르게 옮기느냐가 전체 성능을 좌우하거든요. 아무리 GPU가 빨라도 CPU 쪽에서 데이터 공급이 막히면 GPU가 놀게 되니까요. 베라 CPU는 바로 이 문제를 해결하려고 만든 칩이에요.

올림푸스 코어의 특이한 점

베라 CPU에는 엔비디아가 자체 설계한 올림푸스 코어 88개가 들어가요. Arm v9.2 호환이라 기존 소프트웨어를 그대로 쓸 수 있고요. 근데 특이한 건 '공간 멀티스레딩(Spatial Multithreading)'이라는 기술이에요. 보통 멀티스레딩은 하나의 코어를 시간 분할로 나눠 쓰니까 각 스레드 성능이 떨어지잖아요. 베라는 물리적으로 리소스를 분리해서 88개 코어로 176개 스레드를 전속력으로 돌릴 수 있다는 게 핵심이에요.

메모리와 GPU 연결

LPDDR5X 메모리 최대 1.5TB를 탑재하고 대역폭이 1.2TB/s예요. 이전 세대인 그레이스 CPU가 480GB에 512GB/s였으니 용량 3배, 대역폭 2.4배 늘어난 거죠. 그리고 2세대 NVLink-C2C로 루빈 GPU와 1.8TB/s 양방향 대역폭으로 연결되면서 CPU 메모리와 GPU의 HBM4를 하나의 통합 메모리처럼 쓸 수 있어요. (정확히는 코히런트 메모리 아키텍처라고 하는데, 쉽게 말하면 데이터를 따로 복사할 필요 없이 양쪽에서 바로 접근 가능하다는 뜻이에요.)

베라루빈 출시일과 주문 일정이 궁금하다면 2026년 하반기 출하 일정, 주요 클라우드 파트너사별 도입 현황까지 타임라인으로 정리했어요. 베라루빈 출시일·가격 확인 →

NVL72 랙 시스템 — 72개 GPU가 하나처럼 움직이는 구조

개별 칩 스펙도 중요하지만, 베라루빈의 진짜 핵심은 이 칩들이 조합되는 방식이에요. NVL72라는 랙 스케일 시스템으로 묶이면 72개 GPU가 마치 하나의 거대한 GPU처럼 동작하거든요.

구성을 뜯어보면 이래요. 컴퓨트 트레이 하나에 베라 CPU 2개, 루빈 GPU 4개, ConnectX-9 8개, BlueField-4 1개가 들어가요. 이 트레이 18개를 쌓고, 그 사이에 NVLink 6 스위치 트레이를 끼우면 NVL72 랙 하나가 완성돼요.

여기서 인상적인 부분이 있어요. 블랙웰 세대에서는 트레이 내부에 케이블이 43개나 필요했는데 베라루빈 트레이는 내부 케이블이 0개예요. 익스트림 코-디자인으로 내부 배선을 전부 없앤 거죠. 덕분에 조립 시간도 2시간에서 5분으로 단축됐다고 해요. 처음에 이 숫자를 보고 오타인 줄 알았는데 (나중에 확인해보니) 진짜였어요.

NVL72 전체 스펙을 한눈에 보면 이렇습니다.

항목	NVL72 전체	GPU당
GPU 수	72개	—
CPU 수	36개 (올림푸스 코어 총 3,168개)	—
GPU 메모리	20.7TB HBM4	288GB
GPU 메모리 대역폭	1,580TB/s	22TB/s
NVLink 대역폭	260TB/s	3.6TB/s
CPU 메모리	54TB LPDDR5X	—
냉각 방식	100% 액체 냉각 (45°C 온수)	—

100% 액체 냉각이라는 점도 주목할 만해요. 별도 냉동기(칠러) 없이 45도 온수로 랙 전체를 냉각하는 구조라서 전체 전력 소비의 약 6%를 절감할 수 있다고 하거든요. 데이터센터 운영 비용에서 냉각이 차지하는 비중을 생각하면 꽤 의미 있는 숫자예요.

💡 꿀팁

NVL72 시스템 가격은 공식 발표된 적 없지만, 업계 추산으로는 블랙웰 GB200 NVL72(약 260만~300만 달러)보다 높은 수준이 예상돼요. NVL144 버전은 약 600만 달러 수준으로 추정된다는 보도도 있어요. 도입을 검토한다면 공식 파트너사(슈퍼마이크로, 델 등)를 통해 정확한 견적을 확인하는 게 좋아요.

블랙웰과 베라루빈의 세대별 성능 격차가 궁금하다면 훈련·추론·메모리 대역폭까지 3축으로 비교한 상세 분석 글이에요. 인포그래픽으로 한눈에 확인할 수 있어요. 블랙웰 vs 베라루빈 성능 5배 차이 확인 →

GTC 2026 키노트에서 추가로 공개된 것들

2026년 3월 16일 GTC 키노트에서 젠슨 황 CEO가 약 2시간 동안 무대에 섰는데, 베라루빈 관련으로 몇 가지 중요한 발표가 있었어요.

Groq 3 LPX — 7번째 칩의 등장

엔비디아가 2025년 12월에 약 200억 달러에 인수한 Groq의 기술을 통합한 첫 제품이에요. Groq 3 LPU(Language Processing Unit)는 대용량 온칩 SRAM을 활용해서 추론 시 저지연 처리에 특화된 칩인데, 256개 LPU를 담은 Groq 3 LPX 랙을 베라루빈 NVL72 옆에 붙이면 와트당 토큰 처리량이 35배 향상된다고 해요. 3분기부터 출하 예정이라고 밝혔고요.

카이버(Kyber) 아키텍처 프로토타입

루빈 이후의 차세대 랙 아키텍처 프로토타입도 공개했어요. 기존에 트레이를 수평으로 쌓던 방식에서 수직 배치로 전환해서 밀도를 높이고 지연시간을 줄이는 구조예요. 이 카이버 설계는 2027년 출하 예정인 베라루빈 울트라에 적용될 예정이에요.

1조 달러 규모 주문 전망

가장 시장에 임팩트가 컸던 발언은 "블랙웰과 베라루빈을 합쳐 2027년까지 최소 1조 달러 규모의 구매 주문을 예상한다"는 부분이었어요. 작년 GTC에서는 5,000억 달러를 전망했는데 1년 만에 두 배로 늘어난 거죠. 마이크로소프트가 베라루빈 NVL72 최초 도입을 발표하기도 했고요.

GTC 2026 전체 발표 내용이 궁금하다면 키노트에서 다뤄진 자율주행, 휴머노이드 로봇, AI 에이전트 플랫폼까지 전체 내용을 정리한 글이에요. GTC 2026 핵심 발표 총정리 확인 →

엔비디아 로드맵 — 루빈 울트라, 파인만까지

베라루빈이 끝이 아니에요. 엔비디아는 매년 새로운 아키텍처를 내놓겠다는 로드맵을 이미 공개한 상태거든요.

아키텍처	출시 시기	핵심 특징
블랙웰	2024~2025년	HBM3e, 208B 트랜지스터
블랙웰 울트라	2025년	블랙웰 강화 버전
베라루빈	2026년 하반기	HBM4, 336B 트랜지스터, 6칩 코-디자인
루빈 울트라	2027년	HBM4E, 카이버 랙 아키텍처, 4개 칩렛
파인만(Feynman)	2028년 (추정)	HBM5, 200 PFLOPS급 FP4 (추정)

2027년 루빈 울트라는 HBM4E(7세대 고대역폭메모리)를 탑재하고 SXM8 소켓당 4개 칩렛을 넣는 구성이 될 거라는 보도가 있었어요. 그리고 2028년 파인만은 아직 구체적인 스펙이 확정되지 않았지만, 200 PFLOPS급 FP4 연산과 2TB 이상 HBM5 메모리를 사용할 것으로 전망되고 있어요.

근데 이 로드맵을 보면서 한 가지 실수를 했었거든요. 작년에 "블랙웰이면 충분하지 않을까?" 싶어서 관련 분석을 미뤘는데, 베라루빈 발표가 나오자마자 AI 인프라 관련 종목들이 출렁이더라고요. 특히 HBM4 공급 관련주가 크게 움직였는데, 로드맵을 미리 챙겨봤더라면 대응이 달랐을 텐데 하는 생각이 들었어요. (엔비디아 2026 완벽 가이드 GPU부터 투자까지)

⚠️ 주의

로드맵의 루빈 울트라(2027년), 파인만(2028년)은 아직 확정 스펙이 아닌 전망치예요. 특히 파인만의 200 PFLOPS, HBM5 등의 수치는 업계 추정이니 공식 발표 전까지는 참고 수준으로만 봐야 해요. 엔비디아 공식 사이트에서 최신 로드맵을 직접 확인하는 걸 권장합니다.

실제로 뭐가 달라지는 건지 — 현실적인 의미

숫자가 아무리 화려해도 결국 중요한 건 "그래서 뭐가 달라지는데?"잖아요. 젠슨 황 CEO가 CES 키노트에서 언급한 핵심 수치 세 가지를 기준으로 정리해봤어요.

첫 번째, 10조 파라미터 모델 학습 시 블랙웰 대비 4분의 1 시스템으로 같은 기간에 작업을 마칠 수 있다는 거예요. 기업 입장에서는 AI 팩토리에 투입하는 GPU 수를 4분의 1로 줄일 수 있다는 뜻이니까 초기 투자 비용이 크게 줄어들죠.

두 번째, 와트당 처리량이 블랙웰 대비 약 10배 향상됐어요. AI 데이터센터에서 전력비가 운영 비용의 상당 부분을 차지하는데, 같은 전력으로 10배 더 많은 토큰을 생산할 수 있다는 거예요. 이게 바로 젠슨 황이 "AI 추론 비용을 10분의 1로 낮출 것"이라고 한 근거이기도 하고요.

세 번째, 100% 액체 냉각으로 별도 냉동기 없이 운영이 가능해요. 데이터센터 물 사용량 문제가 요즘 ESG 차원에서 크게 부각되고 있는데, 45도 온수 냉각은 증발식 냉각 대비 물 사용을 크게 줄일 수 있는 방식이에요.

다만 한 가지 짚고 넘어갈 점이 있어요. 이 수치들은 엔비디아가 자체 벤치마크로 발표한 것이고, 실제 워크로드에서의 성능은 모델 아키텍처, 병렬화 전략, 클러스터 구성에 따라 달라질 수 있어요. 아직 대규모 독립 벤치마크 결과는 나오지 않은 상태이니 참고가 필요해요.

베라루빈이 국내 투자에 미치는 영향이 궁금하다면 HBM4 공급, CPO 기술 등 베라루빈 생태계와 연결된 국내 관련주를 분석한 글이에요. 엔비디아 관련주 국내 14종목 확인 →

흔한 오해 바로잡기 — 베라루빈에 대해 잘못 알려진 것들

베라루빈 관련 글들을 읽다 보면 몇 가지 잘못된 정보가 돌아다니더라고요. 확인해본 것들을 정리해볼게요.

"베라루빈은 소비자용 GPU도 나오나요?" — 현재까지 발표된 베라루빈 플랫폼은 전부 데이터센터용이에요. 소비자용 그래픽카드(지포스 시리즈)는 별도의 아키텍처로 나올 가능성이 높아요. 일부 커뮤니티에서 "RTX 60 시리즈가 루빈"이라는 이야기가 있었는데, 이건 확정된 정보가 아니에요.

"루빈 GPU 하나 가격이 4~5만 달러" — 업계 추산치로 공식 가격이 아니에요. 엔비디아는 칩 단품보다 NVL72 같은 시스템 단위로 판매하는 구조라서, 개별 칩 가격 자체가 공개된 적이 없거든요.

"HBM4 대역폭 22TB/s가 확정" — 이것도 약간 미묘해요. 2026년 3월 초 보도에 따르면 메모리 공급사들이 22TB/s 목표를 완전히 달성하지 못해서 초기 출하분은 약 20TB/s 수준일 수 있다는 이야기가 있었어요. 다만 CES 2026에서 엔비디아가 22TB/s를 공식 스펙으로 확인했고, 이후 10% 상향한 22.2TB/s라는 보도도 나왔어요. 최종 양산 제품에서 어떤 수치가 될지는 출하 후에 확인될 부분이에요.

NVIDIA 베라루빈 NVL72 공식 페이지 바로가기

자주 묻는 질문

Q. 엔비디아 베라루빈 출시일은 언제인가요?

A. 2026년 하반기 출하 예정이에요. 2026년 2월 말에 첫 샘플이 고객사에 발송됐고, 하이퍼스케일러(AWS, 구글, 마이크로소프트)는 2026년 4분기~2027년 1분기에 본격 도입할 것으로 보여요.

Q. 베라루빈 NVL72 가격은 얼마인가요?

A. 공식 가격은 발표되지 않았지만, 블랙웰 GB200 NVL72가 약 260만~300만 달러였던 점을 감안하면 그 이상일 것으로 추정돼요. NVL144 버전은 약 600만 달러 수준이라는 업계 추산이 있어요.

Q. 루빈 GPU의 트랜지스터 수는 얼마인가요?

A. 3,360억 개예요. TSMC 3nm 공정으로 제조되며 블랙웰(2,080억 개) 대비 약 1.6배 늘어났어요. 듀얼 다이 구성은 동일하게 유지됩니다.

Q. 베라루빈과 블랙웰의 성능 차이가 정확히 얼마나 되나요?

A. NVIDIA 공식 기준으로 NVFP4 추론 5배, 훈련 3.5배, 메모리 대역폭 2.8배, NVLink 대역폭 2배, 와트당 처리량 약 10배 향상이에요. 다만 실제 워크로드에 따라 차이가 있을 수 있어요.

Q. HBM4가 HBM3e보다 뭐가 다른 건가요?

A. 인터페이스 너비가 2배로 넓어져서 대역폭이 크게 늘었어요. 루빈 GPU 기준으로 HBM4는 GPU당 288GB 용량에 22TB/s 대역폭을 지원하는 반면, 블랙웰의 HBM3e는 192GB에 8TB/s였어요.

Q. 베라 CPU가 인텔이나 AMD CPU와 경쟁하는 건가요?

A. 직접적인 경쟁보다는 AI 팩토리에 특화된 역할이에요. 베라 CPU는 Arm 기반으로 GPU에 데이터를 빠르게 공급하고 오케스트레이션하는 데 최적화되어 있어서, 범용 서버 CPU와는 용도가 달라요.

Q. 루빈 울트라와 파인만은 언제 나오나요?

A. 루빈 울트라는 2027년, 파인만은 2028년 출시가 예정되어 있어요. 루빈 울트라는 HBM4E를 탑재하고 카이버 랙 아키텍처를 적용할 것으로 알려져 있어요.

Q. 개인이 베라루빈을 구매할 수 있나요?

A. 현재 베라루빈 플랫폼은 데이터센터 및 클라우드 사업자 대상이에요. 개인 구매가 가능한 소비자용 제품은 별도 라인업으로 출시될 예정이며, 현재까지 소비자용 루빈 아키텍처 GPU는 발표되지 않았어요.

Q. GTC 2026에서 발표된 Groq 3 LPX는 뭔가요?

A. 엔비디아가 인수한 Groq의 기술을 기반으로 만든 추론 전용 가속기예요. 대용량 온칩 SRAM으로 저지연 추론에 특화되어 있고, 256개 LPU를 탑재한 LPX 랙을 베라루빈 NVL72와 함께 사용하면 와트당 토큰 성능이 35배 향상된다고 해요.

Q. 베라루빈은 AMD MI455X와 비교하면 어떤가요?

A. AMD의 차세대 AI GPU인 Instinct MI455X도 HBM4를 탑재할 예정이에요. 엔비디아가 CES 2026에서 HBM4 대역폭을 10% 상향한 것도 AMD와의 경쟁을 의식한 것으로 해석되고 있어요. 다만 양사의 직접 비교 벤치마크는 아직 공개되지 않았어요.

엔비디아 베라루빈은 GPU 하나를 교체하는 수준이 아니라 데이터센터의 작동 방식 자체를 바꾸는 플랫폼이에요. 6개 칩 동시 설계, 100% 액체 냉각, 와트당 10배 효율 — 이 숫자들이 실제 출하 후에 어떤 결과로 이어질지 지켜볼 만한 가치가 있어요. 2026년 하반기 출하부터 2027년 루빈 울트라, 2028년 파인만까지 이어지는 로드맵을 꾸준히 체크해두세요.

본 글은 정보 제공 목적으로 작성되었으며, 전문적인 의료/법률/재정 조언을 대체하지 않습니다. 개인 상황에 따라 전문가 상담을 권장합니다.