728x90
개요
LLM에서 치명적 망각(Catastrophic Forgetting)은 모델이 새로운 데이터를 학습할 때 이전에 습득한 정보를 급격히 잊어버리는 현상을 의미합니다. 이는 연속 학습(Continual Learning) 환경에서 주로 발생하며, 모델의 성능 저하로 이어집니다.
내용
치명적 망각은 인공 신경망이 새로운 데이터를 학습할 때 이전에 습득한 정보를 급격히 잊어버리는 현상으로, 연속 학습 환경에서 주요 문제로 작용합니다. 이는 인간의 뇌와 달리 인공지능 모델이 다중 작업 학습 시 지식 유지 능력이 부족하기 때문입니다.
치명적 망각의 주요 원인은 아래와 같습니다.
- 파라미터 덮어쓰기: 신경망의 모든 가중치가 새로운 학습 시 동시 업데이트되어 기존 정보가 손실
- 정보 중요도 인식 부재: 모델이 보존해야 할 핵심 가중치를 식별하지 못해 무분별한 변경이 발생
- 데이터 분포 차이: 새 작업의 데이터 패턴이 기존과 다를 경우 모델이 혼란을 겪음
완화 전략은 아래와 같습니다.
- Elastic Weight Consolidation(EWC): Fisher 정보 행렬로 중요 가중치를 식별, 변화를 제한
- 지식 증류(Knowledge Distillation): 이전 모델 출력을 참조해 정보 손실 최소화
728x90
'AI & GPU' 카테고리의 다른 글
DGX H100 & HGX H100 (2) | 2025.06.05 |
---|---|
임베딩 (0) | 2025.06.05 |
GPU 메모리 단편화 (0) | 2025.05.24 |
LLM에 대한 적대적 공격 (0) | 2025.05.24 |
지식 증류 (Knowledge Distillation) (2) | 2025.05.24 |