분류 전체보기 36

[개념] 평균, 표준편차, 분산에 대한 개념

1. 평균 정의 : 데이터의 총합을 데이터의 개수로 나눈 값 수식 : 2. 표준편차와 분산 편차 : 하나의 데이터 값이 평균에서 얼마나 떨어져있는지에 대한 값 분산(Variance) : 편차들의 제곱의 합 분산 수식 : 표준편차(standard deviation) : 분산에서 루트를 씌운 값 표준편차 수식 : 3. 표준편차 해석 표준 편차는 산포, 즉 데이터가 평균을 중심으로 퍼져 있는 정도를 나타내는 측도 값이 클수록 데이터가 더 퍼져 있음을 의미

정리필요/수학 2021.03.15

[논문리뷰]SCIBERT: A Pretrained Language Model for Scientific Text

논문링크 0. 요약 - 사전 훈련된 언어 모델 BERT를 기반으로 SCIBERT 만듬 - 다양한 과학 영역의 데이터 세트 사용 - 평가 대상 : 시퀀스 태그 지정, 문장 분류 및 종석성 구문 분석을 포함한 작업 - 코드 및 모델 : https://github.com/allenai/scibert/ 1. 소개 - 과학 영역에서는 주석에 필요한 전문지식으로인해 데이터 수집 어렵고 비용 큼 - 데이터 전처리 임베딩 : 과학 텍스트의 대규모 말뭉치로 훈련된 SCIBERT - 특정 아키텍처의 성능과 도메인 내 어휘 보유의 효과를 조사 2. 방법 - 방식 : BERT와 동일한 아키텍처에 과학 텍스트로 학습 - BERT 어휘 방식 : 가장 자주 사용되는 단어 or subword units 포함 - 어휘 크기 : 30K..

Wordpiece

Wordpiece 워드피스 wordpiece tokenizer는 subword tokenizer의 종류 중 하나이다. subword tokenizer에서 대표적으로 사용되는 방법으로 BPE(Byte Pair Encoding) 방법이 있다. 일반적으로 많이 사용하는 Sentencepiece의 경우 빈도수를 기반으로 BPE를 수행하며, Wordpiece의 경우 likelihood를 기반으로 BPE를 수행한 알고리즘이다. BERT의 경우 Wordpiece를 이용한 tokenizer를 사용하였고, sentencepiece를 사용한 모델 또한 많다. 선택에 따라 필요한 tokenizer를 활용할 수 있다. Wordpiece Tokenizer 만들기 huggingface tokenizers 설치 pip instal..

정리필요/NLP 2021.03.15

임베딩

자연어처리에서 임베딩(embedding)이란? 자연어를 기계가 알아들을 수 있게 수치화(벡터화)하는 것, 문장을 벡터 공간에 끼워넣는다(embed) 임베딩을 통해 가능해진 것 단어나 문장 사이의 유사도 계산 코사인 유사도가 가장 높은 단어를 구하는 등의 계산 가능 (+ t-SNE 차원 축소 기법으로 시각화 가능) 단어들 사이의 의미/문법적 정보 도출 벡터 간 연산으로 단어 사이 문법적 관계 도출 (평가 방법으로는 단어 유추 평가(word analogy test)가 있음) 전이 학습(transfer learning) 다른 딥러닝 모델의 입력값으로 사용 임베딩의 변천사 과거 현재 LSA(잠재 의미 분석, Latent Semantic Analysis) - tf-idf 등의 행렬을 특이값 분해 등을 통해 차원 ..

정리필요/NLP 2021.03.15

statistics_study 2

표본추출 방법 1. 확률표본추출 (probability sampling) 모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법 -> 표본추출틀(sampling frame, 표집틀) 필요 ex) 모집단이 a, b, c, d, e에서 2개의 표본을 추출하면 어떤 개체가 표본으로 뽑힐 확률은 2/5 표본추출 방법의 대표적으로 단순확률추출, 계통추출, 집락추출, 층화추출 등이 있음 2. 비확률표본추출 (non-probability sampling) 특정 표본이 선정될 확률을 알 수 없음 ㄴ 그래서 추론결과의 정확도(precision)을 알 수 없어 해당하는 표본만 A라 할 수 있지 모집단이 A라 할 수는 없음 ㄴ 간편하고 비용이 적게 든다는 이유로 사회조사에서 광범위하게 사용되나 모..

정리필요/수학 2021.02.23

statistics_study 1

통계학이란? 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해 모집단으로부터 일부의 자료(표본)을 수집하 수집된 표본을 정리, 요약, 분석하여 표본의 특성을 파악한 후 표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문 - 통계학(staticstics) 과정 1. 관심 또는 연구 대상(문제, 주제, 가설 등) 설정 2. 실험을 통해 자료 수집 3. 자료 정리, 요약, 분석하여 자료의 특성을 파악 4. 자료의 특성을 이용하여 연구 대상에 대해 추출 ex) 1. 컴퓨터 언어별 사용 분야 분석 (여기서 주제는 C언어, Cpp 등 언어별 어떤 분야에 많이 사용되는가 분석한다) 2. 실제 만들어진 프로그램의 사용된 언어를 수집한다. 3. 게임에는 cpp, 웹 페이지에는 java..

정리필요/수학 2021.02.23