목록전체 글 (54)
공부 기록
Wordpiece 워드피스 wordpiece tokenizer는 subword tokenizer의 종류 중 하나이다. subword tokenizer에서 대표적으로 사용되는 방법으로 BPE(Byte Pair Encoding) 방법이 있다. 일반적으로 많이 사용하는 Sentencepiece의 경우 빈도수를 기반으로 BPE를 수행하며, Wordpiece의 경우 likelihood를 기반으로 BPE를 수행한 알고리즘이다. BERT의 경우 Wordpiece를 이용한 tokenizer를 사용하였고, sentencepiece를 사용한 모델 또한 많다. 선택에 따라 필요한 tokenizer를 활용할 수 있다. Wordpiece Tokenizer 만들기 huggingface tokenizers 설치 pip instal..
자연어처리에서 임베딩(embedding)이란? 자연어를 기계가 알아들을 수 있게 수치화(벡터화)하는 것, 문장을 벡터 공간에 끼워넣는다(embed) 임베딩을 통해 가능해진 것 단어나 문장 사이의 유사도 계산 코사인 유사도가 가장 높은 단어를 구하는 등의 계산 가능 (+ t-SNE 차원 축소 기법으로 시각화 가능) 단어들 사이의 의미/문법적 정보 도출 벡터 간 연산으로 단어 사이 문법적 관계 도출 (평가 방법으로는 단어 유추 평가(word analogy test)가 있음) 전이 학습(transfer learning) 다른 딥러닝 모델의 입력값으로 사용 임베딩의 변천사 과거 현재 LSA(잠재 의미 분석, Latent Semantic Analysis) - tf-idf 등의 행렬을 특이값 분해 등을 통해 차원 ..

표본추출 방법 1. 확률표본추출 (probability sampling) 모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법 -> 표본추출틀(sampling frame, 표집틀) 필요 ex) 모집단이 a, b, c, d, e에서 2개의 표본을 추출하면 어떤 개체가 표본으로 뽑힐 확률은 2/5 표본추출 방법의 대표적으로 단순확률추출, 계통추출, 집락추출, 층화추출 등이 있음 2. 비확률표본추출 (non-probability sampling) 특정 표본이 선정될 확률을 알 수 없음 ㄴ 그래서 추론결과의 정확도(precision)을 알 수 없어 해당하는 표본만 A라 할 수 있지 모집단이 A라 할 수는 없음 ㄴ 간편하고 비용이 적게 든다는 이유로 사회조사에서 광범위하게 사용되나 모..
통계학이란? 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해 모집단으로부터 일부의 자료(표본)을 수집하 수집된 표본을 정리, 요약, 분석하여 표본의 특성을 파악한 후 표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문 - 통계학(staticstics) 과정 1. 관심 또는 연구 대상(문제, 주제, 가설 등) 설정 2. 실험을 통해 자료 수집 3. 자료 정리, 요약, 분석하여 자료의 특성을 파악 4. 자료의 특성을 이용하여 연구 대상에 대해 추출 ex) 1. 컴퓨터 언어별 사용 분야 분석 (여기서 주제는 C언어, Cpp 등 언어별 어떤 분야에 많이 사용되는가 분석한다) 2. 실제 만들어진 프로그램의 사용된 언어를 수집한다. 3. 게임에는 cpp, 웹 페이지에는 java..