728x90
개요
GPUDirect RDMA는 GPU와 네트워크 장치 간의 직접 데이터 전송을 가능하게 하는 기술로, CPU와 시스템 메모리를 우회하여 지연 시간과 오버헤드를 최소화합니다. 이는 HPC 및 대규모 데이터 처리에 주로 활용됩니다.
내용
GPUDirect RDMA는 GPU와 네트워크/스토리지 등 외부 장치 간의 직접 데이터 전송을 지원하는 기술입니다. GPU 메모리와 NIC 등 PCIe 장치 간 직접 메모리 접근(DMA) 구현을 통해, CPU 오버헤드 감소하여 데이터 전송을 효율화합니다.
GPU는 PCI Express 기본 주소 레지스터 영역을 통해 메모리 일부를 외부 장치에 노출합니다. 이를 통해 NIC 같은 피어 장치가 GPU 메모리에 직접 접근할 수 있습니다. 기존 방식에서는 데이터가 GPU → 시스템 메모리 → NIC으로 복사되지만, GPUDirect RDMA는 GPU 메모리 ↔ NIC 간 직접 전송을 구현합니다. 이로 인해 4~5회의 불필요한 복사 단계가 제거되며, 대역폭 활용도가 극대화됩니다.
NVIDIA GPUDirect RDMA을 위한 하드웨어 요구사항은 아래와 같습니다.
- NVIDIA A100/H100 등과 같은 RDMA 지원 GPU
- Mellanox ConnectX 시리즈 등 InfiniBand/RoCE 지원 NIC
- GPU와 NIC이 동일한 PCIe 스위치에 연결된 토폴로지
NVIDIA GPUDirect RDMA을 위한 소프트웨어 요구사항은 아래와 같습니다.
- Linux 커널(특정 버전 호환성 필수)
- NVIDIA GPU 드라이버, CUDA 툴킷
- Mellanox OFED(MOFED) 드라이버
728x90
'AI & GPU' 카테고리의 다른 글
LLM에 대한 적대적 공격 (0) | 2025.05.24 |
---|---|
지식 증류 (Knowledge Distillation) (2) | 2025.05.24 |
멀티노드 학습에서 NAS의 역할 (0) | 2025.05.23 |
LoRA (0) | 2025.05.17 |
Pinned Memory (0) | 2025.05.06 |