정리필요/NLP

[개념] 정제와 정규화

kstar2 2021. 3. 31. 13:50

출처 : wikidocs.net/21693

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거

정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.

 

정제 작업

 

- 토큰화 작업에 방해가 되는 부분들을 배제 시킴

- 토큰화 작업 이후에 남아있는 노이즈들을 제거

- 완벽한 정제 작업은 어려워 주로 합의점을 찾아 종료함

 

정규화 작업

 

- 규칙에 기반(직접 코딩을 통해 정의) 

  ex) USA와 US가 같은 의미를 가지므로 하나의 단어로 보는 것

- 대, 소문자 통합 

  - 이는 US가 us와 같은 의미로 사용될 수 있는 문제도 있음, 그래서 문장의 첫 글자만 소문자로 바꾸기도 함.

  - 언제 소문자로 바꿀지에 대한 결정은 머신 러닝 시퀀스 모델로 더 정확히 진행시킬 수 있음

  - 모든 코퍼스를 소문자로 바꾸는 것이 종종 더 실용적이기도 함

- 불필요한 단어의 제거(Removing Unnecessary Words)

  - 등장 빈도가 적은 단어(Removing Rare words)

  - 길이가 짧은 단어 (Removing words with very a short length)

    - 영어권 언어에서는 가능해 주로 2~3글자 이하 단어는 제거하지만 3글자에서 car같은건 상황에 따라 고려

    - 한국어는 불가

- 정규 표현식(Regular Expression)
  얻어낸 코퍼스에서 노이즈 데이터의 특징을 잡아낼 수 있다면, 정규 표현식을 통해서 제거 가능

  ex) HTML 문서에서 HTML 태그, 뉴스 기사라면 시간 등

'정리필요 > NLP' 카테고리의 다른 글

[개념] 토큰화  (0) 2021.03.29
[개념] Markov란  (0) 2021.03.18
[개념] NLP란?  (0) 2021.03.18
Wordpiece  (0) 2021.03.15
임베딩  (0) 2021.03.15