AI & GPU 33

행렬(Matrix)

개요행렬(Matrix)은 선형대수학에서 수나 다항식을 직사각형 모양으로 배열한 수학적 구조입니다. 가로 줄을 행(Row), 세로 줄을 열(Column)이라고 부릅니다. 내용행렬은 선형대수학의 핵심 도구로, 수나 다항식을 행과 열로 배열한 구조이며, 연립방정식의 간결한 표현, 선형 변환, 데이터 저장 및 다양한 연산에 활용됩니다. 1. 정사각행렬 (Square Matrix)행(row)과 열(column)의 개수가 같은 행렬입니다. 3×3, 4×4 등의 행령이 정사각행렬입니다. 2. 대각행렬 (Diagonal Matrix)정사각행렬 중에서 주대각선(왼쪽 위에서 오른쪽 아래로 이어지는 선) 이외의 모든 성분이 0인 행렬입니다. 3. 단위행렬 또는 항등행렬 (Identity Matrix)대각행렬의 일종으로,..

AI & GPU 2025.06.25

EigenValue, EigenVector

개요고유값(EigenValue)과 고유벡터(EigenVector)는 선형대수학에서 매우 중요한 개념으로, 행렬이 특정 벡터를 변환할 때 그 벡터의 방향은 그대로 두고 크기만 일정 배수로 변환시키는 경우를 설명합니다. 내용1. 고유벡터(EigenValue)행렬 A에 대해 방향이 변하지 않고 크기만 변하는 0이 아닌 벡터 x를 고유벡터라고 합니다. Ax = λx를 만족하는 0이 아닌 벡터 x가 고유벡터입니다. 즉, 고유벡터는 선형변환 후에도 방향이 변하지 않는 0이 아닌 벡터를 의미합니다. 2. 고유값(EigenVector)x가 고유벡터일 때, 그 벡터가 변환될 때의 배수 λ를 고유값이라고 합니다. 즉, 고유값은 고유벡터가 변환될 때의 크기 변화 비율을 의미합니다. 고유벡터와 고유값을 그래프 위에서 표현하..

AI & GPU 2025.06.21

vLLM

개요vLLM은 LLM 추론의 메모리 효율성과 처리 속도 개선을 위해 설계된 오픈소스 프레임워크입니다. 대규모 동시 요청 처리와 실시간 애플리케이션에 적합하며, 클라우드 및 온프레미스 환경 모두에서 배포할 수 있습니다. 내용vLLM은 LLM 추론 및 서빙을 위해 설계된 오픈소스 라이브러리로, GPU 메모리를 효율적으로 관리합니다. 운영 환경에서 요구되는 높은 처리량과 낮은 지연을 제공하는 것이 핵심 목표입니다. PagedAttention: KV 캐시를 비연속적 메모리 블록에 저장하여, 메모리 효율을 높이고 긴 컨텍스트 윈도우를 지원Quantization: AWQ, RTN, GPTQ 등의 다양한 양자화 기업을 지원. 8비트 양자화 적용 시 최대 모델 크기를 50% 감소Continuous Batching: ..

AI & GPU 2025.06.08

NVIDIA TensorRT

개요TensorRT는 딥러닝 모델을 최적화하여 NVIDIA GPU 상에서의 추론 속도를 향상시키는 최적화 엔진입니다. 모델을 최적화하는 Optimizer와 모델연산을 수행하는 Runtime Engine으로 구성되어 있습니다. PyTorch, TensorFlow, Caffe 등의 프레임워크를 지원합니다. 내용TensorRT는 학습된 딥러닝 모델을 최적화하여 NVIDIA GPU 상에서의 추론 속도를 수배에서 수십 배까지 향상시키는 모델 최적화 엔진 및 SDK입니다. PyTorch, TensorFlow, Caffe 등 다양한 딥러닝 프레임워크에서 학습된 모델을 지원합니다. TensorRT는 모델 구조를 분석하여, 연산 속도와 메모리 효율성을 극대화하는 여러 최적화 기법을 적용합니다. 대표적으로 Layer F..

AI & GPU 2025.06.08

DGX H100 & HGX H100

개요DGX H100은 NVIDIA가 직접 설계·제조한 완제품으로, GPU, CPU, 메모리, 스토리지, 네트워킹 등 모든 하드웨어와 소프트웨어가 통합되어 즉시 사용할 수 있는 일체형 시스템입니다. 반면, HGX H100은 GPU, NVSwitch, NVLink 등 핵심 가속 모듈만 제공하는 플랫폼으로, 서버 제조사가 CPU, 메모리, 스토리지 등 나머지 부품을 자유롭게 선택해 구축하는 맞춤형 서버입니다. 내용1. DGX H100NVIDIA가 직접 설계·제조한 완제품 서버로, 8개의 H100 GPU, NVSwitch, 듀얼 x86 CPU, 최대 2TB 메모리, NVMe SSD 등 모든 하드웨어와 소프트웨어가 통합되어 있습니다. 설치 후 바로 AI/ML 워크로드에 사용할 수 있도록 최적화되어 있으며, NVI..

AI & GPU 2025.06.05

임베딩

개요 임베딩(Embedding)은 텍스트, 이미지, 오디오 등의 데이터를 연속적인 숫자 벡터(수치화된 배열)로 변환하는 기술입니다. 사람이 사용하는 자연어, 사진, 소리와 같은 복잡한 데이터를 기계가 처리할 수 있는 형태인 벡터로 바꾸는 과정 또는 그 결과를 의미합니다. 벡터 공간에서는 데이터 간 의미적 유사성, 관계 등을 수치적으로 표현할 수 있습니다. 자연어 처리, 이미지 검색, 추천 시스템 등 다양한 인공지능 분야에서 핵심적으로 활용됩니다. 내용임베딩은 사람이 이해하는 복잡한 데이터를 컴퓨터가 이해할 수 있는 벡터(수치화된 배열)로 변환합니다. 자연어, 이미지, 오디오 등 다양한 데이터를 벡터 공간의 점으로 표현할 수 있습니다. 벡터 공간에서 데이터 간의 의미적 유사성, 관계 등을 수치적으로 ..

AI & GPU 2025.06.05

치명적 망각

개요LLM에서 치명적 망각(Catastrophic Forgetting)은 모델이 새로운 데이터를 학습할 때 이전에 습득한 정보를 급격히 잊어버리는 현상을 의미합니다. 이는 연속 학습(Continual Learning) 환경에서 주로 발생하며, 모델의 성능 저하로 이어집니다. 내용치명적 망각은 인공 신경망이 새로운 데이터를 학습할 때 이전에 습득한 정보를 급격히 잊어버리는 현상으로, 연속 학습 환경에서 주요 문제로 작용합니다. 이는 인간의 뇌와 달리 인공지능 모델이 다중 작업 학습 시 지식 유지 능력이 부족하기 때문입니다. 치명적 망각의 주요 원인은 아래와 같습니다.파라미터 덮어쓰기: 신경망의 모든 가중치가 새로운 학습 시 동시 업데이트되어 기존 정보가 손실정보 중요도 인식 부재: 모델이 보존해야 할 핵..

AI & GPU 2025.05.24

GPU 메모리 단편화

개요GPU 메모리 단편화(GPU Memory Fragmentation)는 GPU의 가용 메모리 공간이 작은 조각으로 나뉘어 실제 사용 가능한 연속된 메모리 블록이 부족해지는 현상입니다. 이로 인해 총 여유 메모리 공간은 충분함에도 불구하고 Out-of-Memory(OOM) 에러가 발생할 수 있습니다. 내용GPU 메모리 단편화는 GPU 메모리 공간이 작은 조각들로 나뉘어, 실제로는 전체 여유 공간이 충분함에도 불구하고 연속적으로 필요한 크기의 메모리 블록을 할당하지 못하는 현상을 의미합니다. GPU 메모리 단편화가 발생하는 경우는 아래와 같습니다.빈번한 메모리 할당/해제: 학습 과정에서 다양한 크기의 텐서를 반복적으로 생성 및 제거할 때 발생. 예를 들어 동적 계산 그래프 사용 시 메모리 요구량이 불규칙..

AI & GPU 2025.05.24

LLM에 대한 적대적 공격

개요LLM에 대한 적대적 공격(Adversarial Attack)은 모델의 취약점을 이용해 의도하지 않은 출력을 유도하거나 안전성을 무력화하는 공격 기법입니다. 이러한 공격은 모델이 생성하는 콘텐츠의 신뢰성과 안전성을 위협하며, 특히 의료나 법률 등 고위험 분야에서 심각한 문제를 일으킬 수 있습니다. 내용LLM에 대한 적대적 공격은 LLM 모델의 취약점을 이용해 LLM 모델로부터 안전하지 않은 콘텐츠를 출력하도록 하는 것입니다. 의도적 입력 조작을 통해 공격자는 모델의 출력을 왜곡하기 위해 특수하게 설계된 텍스트나 멀티미디어 입력을 사용합니다. ChatGPT 같은 정렬된 모델도 Jailbreak 프롬프트를 통해 유해한 응답을 생성하도록 유도가 가능합니다. 적대적 공격의 대표적인 예시는 다음과 같습니다...

AI & GPU 2025.05.24
728x90