정리필요/Data analysis 코드 분석 및 이론 3

[개념] L1과 L2

출처 : junklee.tistory.com/29 0. Norm Norm은 절댓값, Norm = 절대값이 아니라 Norm 중 하나가 절댓값 | -1 | = 1 이런 식 말고 | ? | 실수만 아니라 벡터도 들어감, | (1,2) | // 이건 벡터의 크기 정도를 의미 결론 : Norm이란 어떤 값의 크기를 계산하여, 비교가 가능하는 어떤 함수 정도 1. L1 Norm와 L2 Norm - L1 Norm(= Mahattan Distance, Taxicab geometry) 두개의 벡터를 빼고, 절대값을 취한 뒤, 합한 것 ex) x = (1,2,3), y = (-1, 2, 4)라면 d(x,y) = |1 - (-1)| + |2-2| + |3-4| - L2 Norm(= Euclidean Distance) 두 개..

[개념] 표준화 & 정규화

Q. 정규화 또는 표준화의 필요성? feature들의 각 특성의 단위도 다르고 값의 범위도 차이가 있다. 즉, 단위가 다르면 직접적인 비교가 불가능하다. 혹은 단위는 같으나 범위가 다르면 완전히 다른 경우가 된다. 그래서 feature들의 값의 범위를 비슷하게 만들어 주는 것이 정규화 또는 표준화이다. 그리고 이렇게 정규화와 표준화를 해주는 것을 feature scaling 또는 data scaling이라고 한다. 요약 : feature를 직접 비교하기 위해 범위와 단위를 비슷하게 만들어 줘야 해서 Q. 정규화는 뭐고 표준화는 무엇인가? 1. 정규화 (normalization) - 이 공식을 이용하면 가장 큰 값은 1로, 가장 작은 값은 0으로 변환된다. - 변환해주면 모두 [0, 1]의 범위를 갖게 된..

[코드분석] 데이터 시각화(1)

catagory & numeric data 코드 출처 : www.kaggle.com/joshuaswords/predicting-a-stroke-99 Predicting a Stroke (99%) Explore and run machine learning code with Kaggle Notebooks | Using data from Stroke Prediction Dataset www.kaggle.com fig = plt.figure(figsize=(12, 12), facecolor='#f6f6f6') gs = fig.add_gridspec(4, 3) gs.update(wspace=0.1, hspace=0.4) background_color = "#f6f6f6" run_no = 0 for row in r..