출처 : wikidocs.net/21693 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 정제 작업 - 토큰화 작업에 방해가 되는 부분들을 배제 시킴 - 토큰화 작업 이후에 남아있는 노이즈들을 제거 - 완벽한 정제 작업은 어려워 주로 합의점을 찾아 종료함 정규화 작업 - 규칙에 기반(직접 코딩을 통해 정의) ex) USA와 US가 같은 의미를 가지므로 하나의 단어로 보는 것 - 대, 소문자 통합 - 이는 US가 us와 같은 의미로 사용될 수 있는 문제도 있음, 그래서 문장의 첫 글자만 소문자로 바꾸기도 함. ..