정리필요/논문리뷰

[논문리뷰]SCIBERT: A Pretrained Language Model for Scientific Text

kstar2 2021. 3. 15. 16:01

논문링크

 

0. 요약

- 사전 훈련된 언어 모델 BERT를 기반으로 SCIBERT 만듬

- 다양한 과학 영역의 데이터 세트 사용 

- 평가 대상 : 시퀀스 태그 지정, 문장 분류 및 종석성 구문 분석을 포함한 작업

- 코드 및 모델 : https://github.com/allenai/scibert/

 

1. 소개

- 과학 영역에서는 주석에 필요한 전문지식으로인해 데이터 수집 어렵고 비용 큼

- 데이터 전처리 임베딩 : 과학 텍스트의 대규모 말뭉치로 훈련된 SCIBERT

- 특정 아키텍처의 성능과 도메인 내 어휘 보유의 효과를 조사

 

2. 방법

- 방식 : BERT와 동일한 아키텍처에 과학 텍스트로 학습

- BERT 어휘 방식 :  가장 자주 사용되는 단어 or subword units 포함 

- 어휘 크기 : 30K (대소문자 구분 x, BASE VOCAB과 크기 일치)

- BASE VOCAB과 토큰 중첩은 42% -> 과학 도메인과 일반 도메인 차이 큼

- corpus 구성 : 생물 의학 영역 논문(82%), 컴퓨터 과학 영역(18%) //논문량 1.14M

- 논문 길이 : 평균 154문장(2,769개 토큰) -> 3.3B 토큰과 유사한 3.17B 토큰

- 문장 분할 방식 : ScispaCy2 사용

 

3. 실험 설정

 

3.1 작업

 1. 명명된 엔티티 인식(NER)

 2. PICO 추출(PICO)

   - NER과 마찬가지로 모델이 논문에서 참가자, 중재, 비교 및 결과를 설명하는 범위를 추출하는 시퀀스 레이블링

 3. 텍스트 분류(CLS)
 4. 관계 분류(REL)

   - 모델이 삽입된 특수 토킁에 이해 문장에 캡슐화된 두 entity 사이의 관계 유형 예측
 5. 종속성 구문 분석(DEP)

3.2 데이터셋

  - 이전 데이터 셋 : 링크

 

3.3 실험1

3.4 실험2

3.5 실험3