개요LLM에 대한 적대적 공격(Adversarial Attack)은 모델의 취약점을 이용해 의도하지 않은 출력을 유도하거나 안전성을 무력화하는 공격 기법입니다. 이러한 공격은 모델이 생성하는 콘텐츠의 신뢰성과 안전성을 위협하며, 특히 의료나 법률 등 고위험 분야에서 심각한 문제를 일으킬 수 있습니다. 내용LLM에 대한 적대적 공격은 LLM 모델의 취약점을 이용해 LLM 모델로부터 안전하지 않은 콘텐츠를 출력하도록 하는 것입니다. 의도적 입력 조작을 통해 공격자는 모델의 출력을 왜곡하기 위해 특수하게 설계된 텍스트나 멀티미디어 입력을 사용합니다. ChatGPT 같은 정렬된 모델도 Jailbreak 프롬프트를 통해 유해한 응답을 생성하도록 유도가 가능합니다. 적대적 공격의 대표적인 예시는 다음과 같습니다...