목록전체 글 (54)
공부 기록

출처 : junklee.tistory.com/29 0. Norm Norm은 절댓값, Norm = 절대값이 아니라 Norm 중 하나가 절댓값 | -1 | = 1 이런 식 말고 | ? | 실수만 아니라 벡터도 들어감, | (1,2) | // 이건 벡터의 크기 정도를 의미 결론 : Norm이란 어떤 값의 크기를 계산하여, 비교가 가능하는 어떤 함수 정도 1. L1 Norm와 L2 Norm - L1 Norm(= Mahattan Distance, Taxicab geometry) 두개의 벡터를 빼고, 절대값을 취한 뒤, 합한 것 ex) x = (1,2,3), y = (-1, 2, 4)라면 d(x,y) = |1 - (-1)| + |2-2| + |3-4| - L2 Norm(= Euclidean Distance) 두 개..

Q. 정규화 또는 표준화의 필요성? feature들의 각 특성의 단위도 다르고 값의 범위도 차이가 있다. 즉, 단위가 다르면 직접적인 비교가 불가능하다. 혹은 단위는 같으나 범위가 다르면 완전히 다른 경우가 된다. 그래서 feature들의 값의 범위를 비슷하게 만들어 주는 것이 정규화 또는 표준화이다. 그리고 이렇게 정규화와 표준화를 해주는 것을 feature scaling 또는 data scaling이라고 한다. 요약 : feature를 직접 비교하기 위해 범위와 단위를 비슷하게 만들어 줘야 해서 Q. 정규화는 뭐고 표준화는 무엇인가? 1. 정규화 (normalization) - 이 공식을 이용하면 가장 큰 값은 1로, 가장 작은 값은 0으로 변환된다. - 변환해주면 모두 [0, 1]의 범위를 갖게 된..

TP(True Positive) : 정답 True, 예측 값 True (정답) FP(False Positive) : 정답 False, 예측 값 True (오답) FN(False Negative) : 정답 True, 예측값 False (오답) TN(True Negative) : 정답 False, 예측값 False (정답) 1. Precision(정밀도) 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율 정답률(Positive Predictive Value, PPV)라고도 불린다. 만약 FP = 0이면 결과가 무조건 1이 됨으로 꼭 1이라고 좋은 것은 아니다. 다시말해 Precision이 0이라는 것은 False인 것을 False로는 잘 예측 했지만, True인 것을 True로 잘 인식했다고 ..

Markov Property (마르코프 확률) 현재 상태를 n+1이라고 하고 이전 상태를 n이라고 가정한다. n+1회의 상태는 오직 n회 혹은 일정 기간(= a)의 상태에만 영향을 받는다. 즉, n+1회의 상태는 n 혹은 (n + 1) - a의 상태에만 영향을 받아 결정된다. Markov Model Markov Model이란 보통 여러 개의 상태가 존재하고 상태 간의 전이 확률을 Markov Property로 정의한 것을 의미 즉, 다음에 나올 상태에 대한 확률값이 직전 과거에만 종속된 모델이다. 가장 먼저 각 상태를 정의 -> 상태 전이 확률 정의 상태 전이 확률은 각 상태에서 각 상태로 이동할 확률Property (마르코프 확률) 현재 상태를 n+1이라고 하고 이전 상태를 n이라고 가정한다. n+1회..
정의 Natural language processing의 약자로 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 말한다. NLP 사용 분야 음성 인식 내용 요약 번역 사용자의 감정 분석 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류) 질의 응답 시스템 챗봇 등 NLP 모델 종류 Markov RNN (Recurrent Neural Network) Attention 모델 BERT

catagory & numeric data 코드 출처 : www.kaggle.com/joshuaswords/predicting-a-stroke-99 Predicting a Stroke (99%) Explore and run machine learning code with Kaggle Notebooks | Using data from Stroke Prediction Dataset www.kaggle.com fig = plt.figure(figsize=(12, 12), facecolor='#f6f6f6') gs = fig.add_gridspec(4, 3) gs.update(wspace=0.1, hspace=0.4) background_color = "#f6f6f6" run_no = 0 for row in r..

작성한 내용은 다른 곳들을 참고하여 작성되었다. 참고한 것들의 출처는 아래 링크와 같다. 1. 링크1 - partrita.github.io/posts/regression-error/ 2. 링크2 - www.dataquest.io/blog/understanding-regression-error-metrics/ 1. MAE란? 1.1 MAE 개념 Mean Absolute Error로 모델의 예측값의 차이를 모두 더한다는 개념으로 수식은 아래와 같다. 절대값을 취하기 떄문에 가장 직관적으로 알 수 있는 지표이다. //기장 간단한 회귀 오류 메트릭스 여서 MSE보다 특이치에 robust하다 //robust는 특이치로 부터 영향을 크게 받지 않는 다는 의미 절대값을 취하기 때문에 실제보다 낮은 값인지 실제보다 큰..
Encoding이란? 정보의 형태나 형식을 변환하는 처리나 처리방식 형식을 변환하는 처리나 처리방식 One-Hot-Encoding개념 "데이터를 수많은 0과 한개의 1의 값으로 데이터를 구별하는 인코딩" ※encoding이란 파일에 저장된 정보의 형태를 다른 것으로 변경하는 것 텍스트를 유의미한 숫자(벡터)로 바꾸는 가장 손쉬운 방법론 이는 N개의 단얼르 각각 N차원의 벡터로 표현하는 방식이다. 즉, 단어가 포함되는 자리엔 1을 넣고 나머지에는 0을 넣는다. 장점 나름대로 좋은 성능 단점 컴퓨터가 단어의 의미 또는 개념 차이를 전혀 담지 못한다. 단어가 많아질 수록 컴퓨터가 감당해야하기에 성능이 저하된다.

1. 평균 정의 : 데이터의 총합을 데이터의 개수로 나눈 값 수식 : 2. 표준편차와 분산 편차 : 하나의 데이터 값이 평균에서 얼마나 떨어져있는지에 대한 값 분산(Variance) : 편차들의 제곱의 합 분산 수식 : 표준편차(standard deviation) : 분산에서 루트를 씌운 값 표준편차 수식 : 3. 표준편차 해석 표준 편차는 산포, 즉 데이터가 평균을 중심으로 퍼져 있는 정도를 나타내는 측도 값이 클수록 데이터가 더 퍼져 있음을 의미
논문링크 0. 요약 - 사전 훈련된 언어 모델 BERT를 기반으로 SCIBERT 만듬 - 다양한 과학 영역의 데이터 세트 사용 - 평가 대상 : 시퀀스 태그 지정, 문장 분류 및 종석성 구문 분석을 포함한 작업 - 코드 및 모델 : https://github.com/allenai/scibert/ 1. 소개 - 과학 영역에서는 주석에 필요한 전문지식으로인해 데이터 수집 어렵고 비용 큼 - 데이터 전처리 임베딩 : 과학 텍스트의 대규모 말뭉치로 훈련된 SCIBERT - 특정 아키텍처의 성능과 도메인 내 어휘 보유의 효과를 조사 2. 방법 - 방식 : BERT와 동일한 아키텍처에 과학 텍스트로 학습 - BERT 어휘 방식 : 가장 자주 사용되는 단어 or subword units 포함 - 어휘 크기 : 30K..