0. 요약
- 사전 훈련된 언어 모델 BERT를 기반으로 SCIBERT 만듬
- 다양한 과학 영역의 데이터 세트 사용
- 평가 대상 : 시퀀스 태그 지정, 문장 분류 및 종석성 구문 분석을 포함한 작업
- 코드 및 모델 : https://github.com/allenai/scibert/
1. 소개
- 과학 영역에서는 주석에 필요한 전문지식으로인해 데이터 수집 어렵고 비용 큼
- 데이터 전처리 임베딩 : 과학 텍스트의 대규모 말뭉치로 훈련된 SCIBERT
- 특정 아키텍처의 성능과 도메인 내 어휘 보유의 효과를 조사
2. 방법
- 방식 : BERT와 동일한 아키텍처에 과학 텍스트로 학습
- BERT 어휘 방식 : 가장 자주 사용되는 단어 or subword units 포함
- 어휘 크기 : 30K (대소문자 구분 x, BASE VOCAB과 크기 일치)
- BASE VOCAB과 토큰 중첩은 42% -> 과학 도메인과 일반 도메인 차이 큼
- corpus 구성 : 생물 의학 영역 논문(82%), 컴퓨터 과학 영역(18%) //논문량 1.14M
- 논문 길이 : 평균 154문장(2,769개 토큰) -> 3.3B 토큰과 유사한 3.17B 토큰
- 문장 분할 방식 : ScispaCy2 사용
3. 실험 설정
3.1 작업
1. 명명된 엔티티 인식(NER)
2. PICO 추출(PICO)
- NER과 마찬가지로 모델이 논문에서 참가자, 중재, 비교 및 결과를 설명하는 범위를 추출하는 시퀀스 레이블링
3. 텍스트 분류(CLS)
4. 관계 분류(REL)
- 모델이 삽입된 특수 토킁에 이해 문장에 캡슐화된 두 entity 사이의 관계 유형 예측
5. 종속성 구문 분석(DEP)
3.2 데이터셋
- 이전 데이터 셋 : 링크
3.3 실험1
3.4 실험2
3.5 실험3
'정리필요 > 논문리뷰' 카테고리의 다른 글
[논문리뷰] 초진환자 재방문 예측모형 개발 (0) | 2021.03.29 |
---|---|
[논문리뷰] 유방암 분류를위한 적층 앙상블 기법 (0) | 2021.03.25 |
[논문리뷰]머신 러닝 알고리즘을 이용한 만성 질환 관련 입원 환자의 장기 입원 예측 (0) | 2021.03.24 |
[논문리뷰] 응급실 환자의 한국인 분류 및 시력 척도 수준의 머신 러닝 기반 예측 (0) | 2021.03.23 |
[논문리뷰] 건강검진정보(2009-2016) 자료를 이용한 신체 정보와 이상지질혈증 지표의 정준상관 연구 (0) | 2021.03.22 |