정리필요/NLP 6

[개념] 정제와 정규화

출처 : wikidocs.net/21693 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 정제 작업 - 토큰화 작업에 방해가 되는 부분들을 배제 시킴 - 토큰화 작업 이후에 남아있는 노이즈들을 제거 - 완벽한 정제 작업은 어려워 주로 합의점을 찾아 종료함 정규화 작업 - 규칙에 기반(직접 코딩을 통해 정의) ex) USA와 US가 같은 의미를 가지므로 하나의 단어로 보는 것 - 대, 소문자 통합 - 이는 US가 us와 같은 의미로 사용될 수 있는 문제도 있음, 그래서 문장의 첫 글자만 소문자로 바꾸기도 함. ..

정리필요/NLP 2021.03.31

[개념] 토큰화

출처 : wikidocs.net/21667 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 1. 자연어 처리(natural language processing)란? 자연어(natural language)란 우리가 일상 생활에서 사용하는 언어이다. 즉, 자연어 처리란 우리가 일상 생활에서 사용하는 언어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일이다. 예로는 음성 인식, 내용 요약, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇 등의 분야에서 사용된다. 2. 텍스트 전처리(Text preprocessing) 자연어 처리에 있어서 텍스트 전처리는 매우 중요하다. 그 이유는 전처리가 제대로 되지 않으면 자연어 처..

정리필요/NLP 2021.03.29

[개념] Markov란

Markov Property (마르코프 확률) 현재 상태를 n+1이라고 하고 이전 상태를 n이라고 가정한다. n+1회의 상태는 오직 n회 혹은 일정 기간(= a)의 상태에만 영향을 받는다. 즉, n+1회의 상태는 n 혹은 (n + 1) - a의 상태에만 영향을 받아 결정된다. Markov Model Markov Model이란 보통 여러 개의 상태가 존재하고 상태 간의 전이 확률을 Markov Property로 정의한 것을 의미 즉, 다음에 나올 상태에 대한 확률값이 직전 과거에만 종속된 모델이다. 가장 먼저 각 상태를 정의 -> 상태 전이 확률 정의 상태 전이 확률은 각 상태에서 각 상태로 이동할 확률Property (마르코프 확률) 현재 상태를 n+1이라고 하고 이전 상태를 n이라고 가정한다. n+1회..

정리필요/NLP 2021.03.18

Wordpiece

Wordpiece 워드피스 wordpiece tokenizer는 subword tokenizer의 종류 중 하나이다. subword tokenizer에서 대표적으로 사용되는 방법으로 BPE(Byte Pair Encoding) 방법이 있다. 일반적으로 많이 사용하는 Sentencepiece의 경우 빈도수를 기반으로 BPE를 수행하며, Wordpiece의 경우 likelihood를 기반으로 BPE를 수행한 알고리즘이다. BERT의 경우 Wordpiece를 이용한 tokenizer를 사용하였고, sentencepiece를 사용한 모델 또한 많다. 선택에 따라 필요한 tokenizer를 활용할 수 있다. Wordpiece Tokenizer 만들기 huggingface tokenizers 설치 pip instal..

정리필요/NLP 2021.03.15

임베딩

자연어처리에서 임베딩(embedding)이란? 자연어를 기계가 알아들을 수 있게 수치화(벡터화)하는 것, 문장을 벡터 공간에 끼워넣는다(embed) 임베딩을 통해 가능해진 것 단어나 문장 사이의 유사도 계산 코사인 유사도가 가장 높은 단어를 구하는 등의 계산 가능 (+ t-SNE 차원 축소 기법으로 시각화 가능) 단어들 사이의 의미/문법적 정보 도출 벡터 간 연산으로 단어 사이 문법적 관계 도출 (평가 방법으로는 단어 유추 평가(word analogy test)가 있음) 전이 학습(transfer learning) 다른 딥러닝 모델의 입력값으로 사용 임베딩의 변천사 과거 현재 LSA(잠재 의미 분석, Latent Semantic Analysis) - tf-idf 등의 행렬을 특이값 분해 등을 통해 차원 ..

정리필요/NLP 2021.03.15