자연어 처리(NLP)에서 전처리는 텍스트 데이터를 모델에 입력할 수 있는 형식으로 변환하는 프로세스입니다. 이 프로세스는 모델의 성능과 정확도에 큰 영향을 미치기 때문에 매우 중요합니다.
- 문장 분할
자연어 처리의 첫 번째 단계는 텍스트를 문장으로 분해하는 것입니다. 일반적으로 마침표, 느낌표, 물음표 등 문장 구분 기호를 사용하여 문장을 구분합니다. - 토큰화
텍스트를 단어, 구두점 및 숫자와 같은 토큰으로 분해하는 프로세스입니다. 이는 모델이 단어를 이해하고 처리하는 데 필요합니다. - 불용어 제거
일반적으로 공통적이지만 분석에 크게 중요하지 않은 단어를 제거하는 과정입니다. 예를 들어 “the”, “a” 및 “an”과 같은 관사 또는 “is”, “are”, “was” 및 “were”와 같은 동사가 이 범주에 속합니다. - 대소문자 통일(소문자/대문자)
대문자와 소문자를 통일하는 과정입니다. 이는 단어를 구별할 때 모델이 대소문자를 구분하지 않도록 하기 위한 것입니다. - 키워드 추출(stemming/lemmatization)
단어의 원형을 추출하는 과정입니다. 이렇게 하면 단어 수를 줄이고 모델의 정확도를 높일 수 있습니다.
어간 추출은 단어의 어근을 추출합니다.하는 것이다 원형 추출은 단어의 원래 형태를 추출합니다.하는 것이다 - 특수 문자 제거
문자열에서 특수 문자나 기호를 제거하는 프로세스입니다. 예를 들어 URL 주소 또는 이메일 주소와 같은 항목을 제거합니다.
> 이러한 전처리 과정을 통해 전처리된 텍스트 데이터가 모델의 입력으로 사용됩니다.

