[논문리뷰]SCIBERT: A Pretrained Language Model for Scientific Text

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

공부 기록

[논문리뷰]SCIBERT: A Pretrained Language Model for Scientific Text 본문

예전 것들/논문리뷰

[논문리뷰]SCIBERT: A Pretrained Language Model for Scientific Text

kstar2 2021. 3. 15. 16:01

논문링크

0. 요약

- 사전 훈련된 언어 모델 BERT를 기반으로 SCIBERT 만듬

- 다양한 과학 영역의 데이터 세트 사용

- 평가 대상 : 시퀀스 태그 지정, 문장 분류 및 종석성 구문 분석을 포함한 작업

- 코드 및 모델 : https://github.com/allenai/scibert/

1. 소개

- 과학 영역에서는 주석에 필요한 전문지식으로인해 데이터 수집 어렵고 비용 큼

- 데이터 전처리 임베딩 : 과학 텍스트의 대규모 말뭉치로 훈련된 SCIBERT

- 특정 아키텍처의 성능과 도메인 내 어휘 보유의 효과를 조사

2. 방법

- 방식 : BERT와 동일한 아키텍처에 과학 텍스트로 학습

- BERT 어휘 방식 : 가장 자주 사용되는 단어 or subword units 포함

- 어휘 크기 : 30K (대소문자 구분 x, BASE VOCAB과 크기 일치)

- BASE VOCAB과 토큰 중첩은 42% -> 과학 도메인과 일반 도메인 차이 큼

- corpus 구성 : 생물 의학 영역 논문(82%), 컴퓨터 과학 영역(18%) //논문량 1.14M

- 논문 길이 : 평균 154문장(2,769개 토큰) -> 3.3B 토큰과 유사한 3.17B 토큰

- 문장 분할 방식 : ScispaCy2 사용

3. 실험 설정

3.1 작업

1. 명명된 엔티티 인식(NER)

2. PICO 추출(PICO)

- NER과 마찬가지로 모델이 논문에서 참가자, 중재, 비교 및 결과를 설명하는 범위를 추출하는 시퀀스 레이블링

3. 텍스트 분류(CLS)
4. 관계 분류(REL)

- 모델이 삽입된 특수 토킁에 이해 문장에 캡슐화된 두 entity 사이의 관계 유형 예측
5. 종속성 구문 분석(DEP)

3.2 데이터셋

- 이전 데이터 셋 : 링크

3.3 실험1

3.4 실험2

3.5 실험3

'예전 것들 > 논문리뷰' 카테고리의 다른 글

[논문리뷰] 초진환자 재방문 예측모형 개발 (0)	2021.03.29
[논문리뷰] 유방암 분류를위한 적층 앙상블 기법 (0)	2021.03.25
[논문리뷰]머신 러닝 알고리즘을 이용한 만성 질환 관련 입원 환자의 장기 입원 예측 (0)	2021.03.24
[논문리뷰] 응급실 환자의 한국인 분류 및 시력 척도 수준의 머신 러닝 기반 예측 (0)	2021.03.23
[논문리뷰] 건강검진정보(2009-2016) 자료를 이용한 신체 정보와 이상지질혈증 지표의 정준상관 연구 (0)	2021.03.22

'예전 것들/논문리뷰' Related Articles

공부 기록

[논문리뷰]SCIBERT: A Pretrained Language Model for Scientific Text 본문

[논문리뷰]SCIBERT: A Pretrained Language Model for Scientific Text

'예전 것들 > 논문리뷰' 카테고리의 다른 글

티스토리툴바