llm 3

LLM에 대한 적대적 공격

개요LLM에 대한 적대적 공격(Adversarial Attack)은 모델의 취약점을 이용해 의도하지 않은 출력을 유도하거나 안전성을 무력화하는 공격 기법입니다. 이러한 공격은 모델이 생성하는 콘텐츠의 신뢰성과 안전성을 위협하며, 특히 의료나 법률 등 고위험 분야에서 심각한 문제를 일으킬 수 있습니다. 내용LLM에 대한 적대적 공격은 LLM 모델의 취약점을 이용해 LLM 모델로부터 안전하지 않은 콘텐츠를 출력하도록 하는 것입니다. 의도적 입력 조작을 통해 공격자는 모델의 출력을 왜곡하기 위해 특수하게 설계된 텍스트나 멀티미디어 입력을 사용합니다. ChatGPT 같은 정렬된 모델도 Jailbreak 프롬프트를 통해 유해한 응답을 생성하도록 유도가 가능합니다. 적대적 공격의 대표적인 예시는 다음과 같습니다...

AI & GPU 2025.05.24

LLM에서 왜 할루시네이션이 발생하는가?

개요Q. LLM에서는 왜 할루시네이션이 발생하는가?A. 학습데이터의 품질, 알고리즘 설계의 한계, 과적합(Overfitting) 등의 여러 요인으로 인해 발생합니다. 내용할루시네이션(Hallucination)은 AI 분야에서는 인공지능 모델이 사실과 다른 정보를 생성하거나, 존재하지 않는 내용을 마치 사실처럼 그럴듯하게 만들어내는 현상을 뜻합니다. 챗봇이 실제로 존재하지 않는 사건이나 인물을 언급하거나, 이미지 생성 모델이 왜곡된 결과물을 만들어내는 경우가 할루시네이션의 사례입니다.  LLM(대규모 언어 모델)에서 할루시네이션은 AI 모델이 학습한 데이터의 품질 문제, 알고리즘 설계의 한계, 과적합(Overfitting), 그리고 문맥 이해 부족 등 여러 요인에서 발생합니다. 따라서 생성형 AI를 사용할..

Q&A/AI & GPU 2025.04.09

LLM에서 할루시네이션을 최소화할 수 있는 방법은 무엇인가?

개요Q. LLM에서 할루시네이션을 최소화할 수 있는 방법은 무엇인가?A. RLHF, RAG 등의 방법으로 할루시네이션을 최소화할 수 있습니다. 내용LLM에서 할루시네이션을 축소 및 최소화하는 방안은 아래와 같습니다. 1. RLHF(인간 피드백을 통한 강화학습)RLHF는 인간의 피드백을 기반으로 모델을 훈련하여 더 신뢰할 수 있는 답변을 생성하도록 돕는 기법입니다. 인간이 모델의 출력을 검토하고 오류를 수정함으로써, 점진적으로 정확도를 향상시킬 수 있습니다. 특히 의료나 법률 등 높은 정확도가 요구되는 도메인에서 효과적입니다. 2. 검색 증강 생성(RAG)RAG는 LLM의 생성 능력을 외부 데이터베이스와 결합하여 정확도를 높이는 방법입니다. 모델이 질문에 답변할 때 외부 데이터를 검색하고 이를 기반으로 응..

Q&A/AI & GPU 2025.04.02
728x90