기술통계와 추론통계의 차이점 기술통계 : 요약, 통계량, 시각화, 특징 파악, EDA단계 추론통계 : 추출한 샘플 사용, 모집단에 대한 추론이 목적, 가설검정
대표값과 기초통계량 대푯값 : 자료의 특성을 나타내는 대표성을 띠는 수치 기초통계량 : 중심경향성, 퍼짐정도, 왜도 : 좌우 비대칭성 정도, 첨도 : 뾰족한 정도
기초통계량 - 중심경향성 최빈값 : 가장 빈번한 값, 범주형 자료에서 대표값으로 주로 사용, ex) 혈액형 중앙값 : 크기 순으로 나열 시 가운데 위치 값, 순서형 자료의 대표값, 이상치에 영향 x 산술평균 : 자료의 값을 더해서 수로 나눔. 주로 연속형 자료에서 사용, 이상치에 영향 o 가중평균 : 자료의 중요도에 따라 가중치를 부여한 평균 기하평균 : 성장률 등 이전 시점에 대한 비율에 대한 평균을 구할 때 유용, ex) CAGR, 주가상승률
기초통계량 - 왜도, 첨도 왜도 : 정규분포에 비해 얼마나 비대칭적인지 나타냄. Negative Skew <0 - 우편향성 / 좌우대칭 0 /Positive Skew >0 - 좌편향성 / (mode = 최빈값) 왜도 < -3 오른쪽으로 쏠림 / 왜도 > 3 왼쪽으로 쏠림 첨도 : 중심에 얼마가 가까이 몰려있는지, 양쯕 꼬리의 두터움 정도 나타냄, 편차 큰 데이터 많을 수록 커짐, 이상치에 영향을 많이 받음 첨도 > 0 - 가운데에 엄청 몰려있음 / < 0 - 양쪽에 퍼져있음. 덜 뾰족 -8 < 정규분포랑 비슷하다 < 8 더 뾰족
CH03. 회귀분석, 공분산, 상관계수
회귀분석을 공부하는 이유 회귀분석 : 변수 사이의 모형f(x)을 구한 뒤, 적합도(y)를 측정해 내는 분석 방법, 선형 회귀 모형 장점 : 둘 이상의 변수 간의 관계를 보여주는 통계적 방법. 종속 변수에 영향 미치는 독립변수 영향력 판단가능. 주의점 : 인과관계를 설명해 주지는 못한다.
공분산 기본 개념 공분산 : 2개의 확률변수의 ‘선형 관계’를 나타내는 값 부호 : cov(x,y) < 0 = 음의 상관관계 / 0 = 상관관계 없음 / > 0 = 양의 상관관계
표본공분산 :
주의점 : 두 변수가 아무 관계 없는 독립 변수일 때 -> 공분산 = 0 공분산 = 0 -> 두 변수가 독립은 아닐 수 있음
상관계수 기본 개념 피어슨 상관 계수 : -1 <= r =< 1, 절대값이 0.5~0.7 이상이면 강한 상관관계를 가진다고 봄. 그러나 도메인에 따라 다름.