지난 몇 년간 AI 연산을 위한 하드웨어는 눈부신 발전을 거듭해왔습니다. CPU, GPU, TPU, NPU 등 다양한 프로세서가 각자의 역할을 수행하며 AI 워크로드를 가속화해왔죠. 하지만 AI 모델의 크기와 복잡도가 기하급수적으로 증가하고, 워크로드가 더욱 다양해짐에 따라 이제는 하나의 프로세서로는 충분하지 않은 시대가 되었습니다. 이렇게 다양한 AI 가속기가 공존하고, 특정 워크로드에 최적화된 프로세서를 선택적으로 사용하는 XPU(Anything Processing Unit) 시대가 열리고 있습니다.


XPU란 무엇인가?

XPU는 CPU/GPU/TPU/NPU처럼 특정 연산에 특화된 프로세서의 통칭으로, 앞으로는 워크로드마다 최적화된 다양한 ‘X’가 존재할 것이라는 의미에서 붙여진 용어입니다. 즉, AI, 그래픽, 신호처리, 데이터베이스 처리 등 특정 목적을 위한 프로세서를 모두 포함하는 개념이죠.

과거에는 GPU만으로도 대부분의 AI 연산을 처리할 수 있었지만, 요즘 AI 워크로드는 이미지, 텍스트, 음성, 그래프 등 형태와 처리 방식이 너무나 다양합니다. 예를 들어:

  • 이미지 인식: CNN 기반의 대규모 병렬 연산 → GPU 적합
  • 언어 모델: 트랜스포머 기반의 대용량 행렬 곱셈 → GPU, TPU 적합
  • 그래프 신경망: 비정형 데이터 연산 → GNN 가속기 필요
  • 비전-트랜스포머(Visual Transformer): 비전과 언어를 결합한 복합 연산 → CPU+GPU+NPU 협업

결국 다양한 프로세서를 하나의 시스템 내에서 조합하고, 각 연산에 최적화된 유닛으로 작업을 분배하는 것이 중요해졌습니다.


최신 XPU 사례

1) NVIDIA Grace Hopper Superchip

CPU(Grace)와 GPU(Hopper)를 고속 NVLink-Chip interconnect로 결합해 CPU-GPU 메모리를 통합, 초대형 AI 워크로드에서 병목을 제거했습니다. Grace는 ARM Neoverse 기반 72코어 CPU로, 대규모 데이터셋 전처리와 메모리 집약적 작업에 강점을 가집니다. Hopper는 최신 H100 GPU 아키텍처로, 트랜스포머 엔진을 내장해 LLM 학습 속도를 획기적으로 높입니다. Grace Hopper Superchip은 CPU와 GPU가 단일 보드에 실리며, NVLink-C2C로 900GB/s 이상의 대역폭을 제공해 CPU와 GPU 간 메모리 공간을 실질적으로 공유합니다. AI 트레이닝뿐 아니라 HPC, 데이터 분석, 디지털 트윈 시뮬레이션 등 폭넓은 워크로드를 아우르는 대표적 XPU 사례입니다.

2) Intel Gaudi2

Intel Gaudi2 Intel Gaudi2는 Habana Labs가 설계하고 Intel이 2022년에 발표한 2세대 딥러닝 전용 가속기로, AI 학습과 추론을 위해 설계되었습니다. 24개의 텐서 프로세싱 코어(TPC), 96GB HBM2e 메모리, 2.45TB/s 이상의 메모리 대역폭을 제공해 초대형 AI 모델 학습을 지원합니다. 특히 Transformer와 같은 시퀀스-투-시퀀스 모델 학습에 최적화되어 있으며, INT8/FP16/BF16 등 다양한 연산 포맷을 지원해 효율성과 정밀도를 동시에 확보합니다. Gaudi2는 Gaudi1 대비 최대 3배 높은 트레이닝 성능을 제공하며, 고속 이더넷 기반 인터커넥트로 최대 1024개의 가속기를 대규모로 클러스터링해 초대형 LLM 학습에 적합한 아키텍처를 제공합니다.

3) AMD Instinct MI300

CPU, GPU, HBM 메모리를 단일 패키지에 통합한 세계 최초의 APU(Accelerated Processing Unit) 형태로, HPC와 AI 워크로드를 동시에 처리할 수 있는 XPU입니다.

4) Edge용 XPU: Qualcomm AI Engine, Apple Neural Engine

스마트폰이나 엣지 디바이스에서도 저전력 AI 연산을 위해 NPU가 CPU/GPU와 함께 사용되며, 실시간 추론을 가능하게 합니다.


XPU 시대의 소프트웨어 중요성

하드웨어만큼 중요한 것은 소프트웨어 스택입니다. 다양한 XPU를 하나의 시스템에서 조합하려면, 워크로드를 분석해 최적의 프로세서로 자동 분배하고 효율적으로 스케줄링하는 소프트웨어가 필요합니다. NVIDIA의 CUDA, AMD ROCm, Intel oneAPI와 같은 통합 가속기 플랫폼이 대표적이죠.

또한 PyTorch/XLA, TensorFlow XLA, ONNX Runtime 등 프레임워크 레벨에서도 XPU를 활용할 수 있도록 활발한 개발이 진행 중입니다.


결론: XPU로 향하는 AI 컴퓨팅의 미래

AI 워크로드는 앞으로도 계속해서 다양해질 것입니다. 하나의 범용 가속기로는 더 이상 모든 요구를 충족할 수 없으며, 각 연산에 특화된 XPU들이 협업하는 구조가 필수가 되고 있습니다. CPU, GPU, TPU, NPU, IPU, SPU 등 다양한 XPU가 공존하고, 이를 아우르는 소프트웨어가 함께 발전하는 것이 앞으로 AI 컴퓨팅의 핵심 트렌드가 될 것입니다.

XPU 시대를 이해하고 준비하는 것은 AI 개발자와 엔지니어 모두에게 필수 역량이 될 것입니다.

카테고리: 미분류

Jay

Jay

S/W Engineer!!