개요NCCL(NVIDIA Collective Communication Library)은 NVIDIA에서 제공하는 multi-GPU 및 multi-node 집합 통신 라이브러리입니다. GPU 간 PCIe, NVLink, InfiniBand 등의 고속 인터커넥트로 연결되어 있는 상황에서 고대역폭과 낮은 Latency를 제공하기 위한 최적화된 집합 통신 함수를 제공합니다. NCCL 구현 방식NCCL은 Ring 기반 집합 통신 알고리즘을 사용하여 최적화를 수행합니다. 다수의 GPU가 링 형태로 연결되어 인접한 GPU 간 데이터 교환이 이루어지며, 이를 통해 효율적인 데이터 전송을 수행합니다. 또한, NCCL은 CUDA 스트림과 통합되어 커널 실행과 데이터 전송을 병렬로 처리함으로써 동기화를 단순화하고 성능을 향..