공부 기록
[개념] 정제와 정규화 본문
출처 : wikidocs.net/21693
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거
정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.
정제 작업
- 토큰화 작업에 방해가 되는 부분들을 배제 시킴
- 토큰화 작업 이후에 남아있는 노이즈들을 제거
- 완벽한 정제 작업은 어려워 주로 합의점을 찾아 종료함
정규화 작업
- 규칙에 기반(직접 코딩을 통해 정의)
ex) USA와 US가 같은 의미를 가지므로 하나의 단어로 보는 것
- 대, 소문자 통합
- 이는 US가 us와 같은 의미로 사용될 수 있는 문제도 있음, 그래서 문장의 첫 글자만 소문자로 바꾸기도 함.
- 언제 소문자로 바꿀지에 대한 결정은 머신 러닝 시퀀스 모델로 더 정확히 진행시킬 수 있음
- 모든 코퍼스를 소문자로 바꾸는 것이 종종 더 실용적이기도 함
- 불필요한 단어의 제거(Removing Unnecessary Words)
- 등장 빈도가 적은 단어(Removing Rare words)
- 길이가 짧은 단어 (Removing words with very a short length)
- 영어권 언어에서는 가능해 주로 2~3글자 이하 단어는 제거하지만 3글자에서 car같은건 상황에 따라 고려
- 한국어는 불가
- 정규 표현식(Regular Expression)
얻어낸 코퍼스에서 노이즈 데이터의 특징을 잡아낼 수 있다면, 정규 표현식을 통해서 제거 가능
ex) HTML 문서에서 HTML 태그, 뉴스 기사라면 시간 등
'예전 것들 > nlp' 카테고리의 다른 글
[개념] 토큰화 (0) | 2021.03.29 |
---|---|
[개념] Markov란 (0) | 2021.03.18 |
[개념] NLP란? (0) | 2021.03.18 |
Wordpiece (0) | 2021.03.15 |
임베딩 (0) | 2021.03.15 |