개요인코딩(Encoding)은 자연어처리에서 텍스트를 기계가 이해할 수 있는 숫자 형태로 변환하는 과정을 의미합니다. 기계는 텍스트보다 숫자를 더 잘 처리하기 때문에, 숫자로 변환하는 것은 자연어처리의 필수적인 전처리 단계입니다. 원-핫 인코딩원-핫 인코딩(One-Hot Encoding)은 문서에 등장하는 단어를 이진 벡터로 변환하여 컴퓨터가 처리할 수 있도록 합니다. 구현이 간단하여 데이터의 범주적 특성을 명확히 표현할 수 있습니다. 또한, 범주형 데이터가 가지는 순서나 크기 정보를 제거하여 모델이 이를 잘못 학습하지 않도록 합니다.다만, 원-핫 인코딩은 단순히 특정 위치에만 1을 부여하므로 단어 간의 유사성을 반영하지 못합니다.아래 이미지는 원-핫 인코딩 후 인코딩 값을 확인하는 파이썬 코드입니다. ..