정리필요 26

[논문리뷰] 건강검진정보(2009-2016) 자료를 이용한 신체 정보와 이상지질혈증 지표의 정준상관 연구

논문출처 : www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002680452 건강검진정보(2009-2016) 자료를 이용한 신체 정보와 이상지질혈증 지표의 정준상관 연구 건강검진정보(2009-2016) 자료를 이용한 신체 정보와 이상지질혈증 지표의 정준상관 연구 Canonical correlation between body information and lipid-profile: A study on the National Health Insurance Big Data in Korea 1군산대학 www.kci.go.kr 논문편명 : Canonical correlation between..

[개념] 잡다하게 정리

출처1 : leedakyeong.tistory.com/entry/%EB%B0%91%EB%B0%94%EB%8B%A5%EB%B6%80%ED%84%B0-%EC%8B%9C%EC%9E%91%ED%95%98%EB%8A%94-%EB%94%A5%EB%9F%AC%EB%8B%9D-%EC%86%8C%ED%94%84%ED%8A%B8%EB%A7%A5%EC%8A%A4-%ED%95%A8%EC%88%98-%EA%B5%AC%ED%98%84%ED%95%98%EA%B8%B0-in-%ED%8C%8C%EC%9D%B4%EC%8D%AC-softmax-in-python [밑바닥부터 시작하는 딥러닝] 소프트맥스란? 소프트맥스 함수 구현하기 in 파이썬 (softmax in python 소프트맥스란? What is softmax? softmax란? ..

정리필요/AI 2021.03.20

[개념] L1과 L2

출처 : junklee.tistory.com/29 0. Norm Norm은 절댓값, Norm = 절대값이 아니라 Norm 중 하나가 절댓값 | -1 | = 1 이런 식 말고 | ? | 실수만 아니라 벡터도 들어감, | (1,2) | // 이건 벡터의 크기 정도를 의미 결론 : Norm이란 어떤 값의 크기를 계산하여, 비교가 가능하는 어떤 함수 정도 1. L1 Norm와 L2 Norm - L1 Norm(= Mahattan Distance, Taxicab geometry) 두개의 벡터를 빼고, 절대값을 취한 뒤, 합한 것 ex) x = (1,2,3), y = (-1, 2, 4)라면 d(x,y) = |1 - (-1)| + |2-2| + |3-4| - L2 Norm(= Euclidean Distance) 두 개..

[개념] 표준화 & 정규화

Q. 정규화 또는 표준화의 필요성? feature들의 각 특성의 단위도 다르고 값의 범위도 차이가 있다. 즉, 단위가 다르면 직접적인 비교가 불가능하다. 혹은 단위는 같으나 범위가 다르면 완전히 다른 경우가 된다. 그래서 feature들의 값의 범위를 비슷하게 만들어 주는 것이 정규화 또는 표준화이다. 그리고 이렇게 정규화와 표준화를 해주는 것을 feature scaling 또는 data scaling이라고 한다. 요약 : feature를 직접 비교하기 위해 범위와 단위를 비슷하게 만들어 줘야 해서 Q. 정규화는 뭐고 표준화는 무엇인가? 1. 정규화 (normalization) - 이 공식을 이용하면 가장 큰 값은 1로, 가장 작은 값은 0으로 변환된다. - 변환해주면 모두 [0, 1]의 범위를 갖게 된..

[개념] classification model 성능평가지표

TP(True Positive) : 정답 True, 예측 값 True (정답) FP(False Positive) : 정답 False, 예측 값 True (오답) FN(False Negative) : 정답 True, 예측값 False (오답) TN(True Negative) : 정답 False, 예측값 False (정답) 1. Precision(정밀도) 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율 정답률(Positive Predictive Value, PPV)라고도 불린다. 만약 FP = 0이면 결과가 무조건 1이 됨으로 꼭 1이라고 좋은 것은 아니다. 다시말해 Precision이 0이라는 것은 False인 것을 False로는 잘 예측 했지만, True인 것을 True로 잘 인식했다고 ..

정리필요/AI 2021.03.18

[개념] Markov란

Markov Property (마르코프 확률) 현재 상태를 n+1이라고 하고 이전 상태를 n이라고 가정한다. n+1회의 상태는 오직 n회 혹은 일정 기간(= a)의 상태에만 영향을 받는다. 즉, n+1회의 상태는 n 혹은 (n + 1) - a의 상태에만 영향을 받아 결정된다. Markov Model Markov Model이란 보통 여러 개의 상태가 존재하고 상태 간의 전이 확률을 Markov Property로 정의한 것을 의미 즉, 다음에 나올 상태에 대한 확률값이 직전 과거에만 종속된 모델이다. 가장 먼저 각 상태를 정의 -> 상태 전이 확률 정의 상태 전이 확률은 각 상태에서 각 상태로 이동할 확률Property (마르코프 확률) 현재 상태를 n+1이라고 하고 이전 상태를 n이라고 가정한다. n+1회..

정리필요/NLP 2021.03.18

[코드분석] 데이터 시각화(1)

catagory & numeric data 코드 출처 : www.kaggle.com/joshuaswords/predicting-a-stroke-99 Predicting a Stroke (99%) Explore and run machine learning code with Kaggle Notebooks | Using data from Stroke Prediction Dataset www.kaggle.com fig = plt.figure(figsize=(12, 12), facecolor='#f6f6f6') gs = fig.add_gridspec(4, 3) gs.update(wspace=0.1, hspace=0.4) background_color = "#f6f6f6" run_no = 0 for row in r..

[개념] Regression model 평가 지표

작성한 내용은 다른 곳들을 참고하여 작성되었다. 참고한 것들의 출처는 아래 링크와 같다. 1. 링크1 - partrita.github.io/posts/regression-error/ 2. 링크2 - www.dataquest.io/blog/understanding-regression-error-metrics/ 1. MAE란? 1.1 MAE 개념 Mean Absolute Error로 모델의 예측값의 차이를 모두 더한다는 개념으로 수식은 아래와 같다. 절대값을 취하기 떄문에 가장 직관적으로 알 수 있는 지표이다. //기장 간단한 회귀 오류 메트릭스 여서 MSE보다 특이치에 robust하다 //robust는 특이치로 부터 영향을 크게 받지 않는 다는 의미 절대값을 취하기 때문에 실제보다 낮은 값인지 실제보다 큰..

정리필요/AI 2021.03.17

[개념] Encoding이란?

Encoding이란? 정보의 형태나 형식을 변환하는 처리나 처리방식 형식을 변환하는 처리나 처리방식 One-Hot-Encoding개념 "데이터를 수많은 0과 한개의 1의 값으로 데이터를 구별하는 인코딩" ※encoding이란 파일에 저장된 정보의 형태를 다른 것으로 변경하는 것 텍스트를 유의미한 숫자(벡터)로 바꾸는 가장 손쉬운 방법론 이는 N개의 단얼르 각각 N차원의 벡터로 표현하는 방식이다. 즉, 단어가 포함되는 자리엔 1을 넣고 나머지에는 0을 넣는다. 장점 나름대로 좋은 성능 단점 컴퓨터가 단어의 의미 또는 개념 차이를 전혀 담지 못한다. 단어가 많아질 수록 컴퓨터가 감당해야하기에 성능이 저하된다.

정리필요/AI 2021.03.16