차트로 데이터 탐색 분포의 중심 : 평균, 중위값, 최빈값 분포의 퍼짐 : 분산, 표준편차, 사분위수, 변동계수 분포의 모양(비대칭성) 왜도(skewness), 첨도(kurtosis)
상관관계로 데이터 탐색 IRIS dataset - 변수간 상관분석, 시각화
CH02. 데이터 탐색과 통계 필요성
탐색 과정의 목적 : 어떤 변수가 결론에 많은 영향을 미치는지 파악 유의미한 변수 탐색, 변수 간 독립성 확보, 의미없는 데이터 제거 (효율성, 차원축소)
피벗테이블로 기술 통계량 확인 : 히스토그램(숫자형 변수), 산점도(상관관계), Box plot(분위수 시각화 및 이상치 파악)
Part3. 비전공자를 위한 왕초보 기초 통계
CH01. 기초통계
변량, 도수, 상대도수, 도수분포표, 히스토그램
변량 : 자료의 수치, 데이터의 값을 의미 계급 : 변량을 일정한 간격으로 나누는 구간, 변량의 최소, 최대를 고려, 적당한 간격 도수 : 각 계급에 속하는 변량의 개수 상대 도수 : 각계급에 속하는 변량의 비율 도수분포표 : 주어진 자료를 계급에 따라 나눈 표, 계급에 속하는 도수 표현, 순서대로 요약 - 장점 : 구간별 분포를 한눈에 알아보기 좋음 - 단점 : 각 변량의 정확한 값을 생략 히스토그램 : 도수분포표를 시각화해서 보는 가장 기본적인 방법. 계급-도수
평균, 분산, 표준편차 개념( 도수 있는 경우와 없는 경우)
평균 : 산술평균 - 변량의 합을 변량의 수로 나눈 값 / df[‘value’].mean() 분산 : 변량이 중심에서 얼마나 떨어져 있는지를 보기 위한 통계량 편차 : 변량에서 평균을 뺀 값 분산 : 편차를 제곱해서 더한 값 표준편차 : 분산의 제곱근, 관찰값들의 흩어진 정도, 편차의 평균과 비슷한 의미를 가지는 통계량 변량을 표준화(정규분포)할 수 있는 수단.
정규분포, 표준정규분포, 표준화 정규분포 : 평균μ, 표준편차σ 에 대해 아래의 확률밀도함수를 가지는 함수 다양한 연속적인 데이터들이 종모양의 형태를 띤다는 것을 확인
중심극한정리 : 독립적인 확률변수들의 평균은 항상 정규분포에 가까워진다. 표준정규분포 : 정규분포중에서 평균이 0, 표준편차가 1인 정규분포 표준화 : 다양하게 생긴 정규분포를 표준정규분포로 변환하는 방법 이를 활용하면 아무리 다른 모양이더라도 분포의 확률을 구할 수 있음
모집단, 표본, 모평균, 표본평균, 모분산, 표본분산
모집단 : 조사 대상이 되는 전체 집합 모수 : 모집단에 대한 요약된 수치, 값에 대한 평균이나 비율 등 표본 : 모집단을 “대표”하는 모집단의 일부, 잘 모으는 게 중요 통계량 : 표본에 대한 수치적 요약, 통계량을 바탕으로 모수를 추정하는 것이 추론통계. 모평균μ , 표본평균¯X, 모분산σ^2, 표본분산 s^2 = var.p (모분산) =var.s (표본분산)
추정, 신뢰도, 신뢰구간
표본 추출의 목적 : 표본으로 모집단을 추정하기 위해, 표본이 커질수록 모평균에 가까워짐. 표본을 몇개정도 가져야 확신을 가질 수 있느냐 ? -> 신뢰도, 신뢰구간 신뢰도 : 모평균이라고 믿을 수 있는 정도, 95%, 99%를 주로 사용 표본의 수가 커지면 커질 수록 이 구간이 좁아져야 함 신뢰구간 : 모평균의 추정 구간, 신뢰도에 따라, 표본의 수에 따라 정해짐 +-1.65 -> 90% / -1.96 <=< 1.96 -> 95% / +-2.58 -> 99%