패스트캠퍼스
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(3)
geraedo
2024. 12. 27. 08:14
주요 학습 내용 요약
Part4. 기술통계 기초 개념을 엑셀 데이터 탐색에 적용해 보기
CH01. 대표값으로 데이터 분포 파악하기
- 대표값 ‘’엑셀 함수’’를 사용해서 데이터 분포 파악하기
표준오차 = stdev.s() 표준편차 / sqrt(데이터 수 ) = 신뢰수준 구할 때 사용
첨도 : = kurt(), 왜도 : =skew(), 범위 : 최대값 - 최소값
제1사분위수 = quartile(범위, 1), 중앙값(2분위수) = quartile(범위, 2),
최대값(4분위수) = quartile(범위,4) = max()
IQR : 3사분위수 - 1사분위수 - 데이터 ‘’분석 도구’’를 사용해서 데이터 분포 파악하기
[데이터분석] - [기술통계법]
CH02. 이상치 탐지
- 사분위수 활용 이상치 탐지하기
이상치 체크 : if(or(값 < (Q1-1.5*IQR), 값 > (Q3+1.5*IQR))) - Z-score 활용해서 이상치 탐지하기 (정규분포에 가까울 때 정확도가 높음)
if(or(z<-3,z>3) 이상치 / z = (값-m)/std
m-3*std 보다 작거나, m+3*std 보다 크면 이상치
(정규분포를 따르는지 체크한 후에, 따르면 사용하는 것을 권장) - Box-plot 활용해서 이상치 탐지하기
[삽입] - [상자수염] - [데이터 레이블] 추가하면 구체적인 값을 볼 수 있음
CH03. 두 변수의 상관관계 분석하기
- 산점도 활용 및 회귀선 찾기
선형회귀분석에서 상관관계를 나타내는 지표 : 추세선
컬럼 선택 - [삽입] - [산점도] - [차트 플러스] - [추세선]
값으로만 보지 말고, 분포도 등을 눈으로 보고 확인하기 - 공분산, 상관계수 측정 및 회귀선 비교하기
[데이터분석] - [공분산분석] 열 이름 포함 = 정규화 되기 전임
[상관분석] = 정규화 시키고 비교해서 더 상관도가 정확하게 나옴
Part5. 추론통계 맛보기와 공공데이터 셋 탐색해보기
CH01. 추론통계 맛보기
- 엑셀에서 표본을 추출하고, 표본평균, 표본표준편차 계산하기
예제1. 0과 1사이의 난수 10개를 만들고, 이 10개를 표본으로 하여 표본 평균, 표본 분산, 표본 표준 편차를 구하시오 =rand() (값이 계속 변하니까 값만 복붙해주자) / =average() / =var.s() / =stdev.s()
=randarray(10 행, 1 열, 0 최소, 1최대, false 정수아님)
=[데이터분석] - [난수생성] - [1양유폼] -[난수시드,0,값고정] - 엑셀에서 모평균과, 표본평균, 모분산, 표본분산 계산하기
예제2-1. 한 학교에서 20명의 학생의 총점이 100점인 시험을 보았다.
이때 모평균, 모분산, 모표준편차를 구하시오.
=randarray(20,1,0,100,1) / =average() / =var.p() / =stdev.p()
예제2-2. 알고봤더니, 전국에서 1000명의 학생이 같은 시험을 보았다.
이 때 1000명의 모집단의 평균과 표준편차의 추정값을 구하시오.
표본 =average() =var.s() =atdev.s() / 모 N=1000, - 정규분포 관련 함수 알아보기
= norm.dist(위치, 0 평균, 1 표준편차, false 누적이 아님) / 정규분포를 따르는 값들을 만들어주는 함수
마지막 변수 cumulative 누적함수
norm.inv() / 정규분포 표본 추출
norm.s.dist / 표준정규분포에 대한 값 만들어주는 함수 / (위치, false)
norm.s.inv / 역함수, 일대일대응 - t분포 관련 함수 알아보기
t분포는 언제 쓰는가? 굉장히 표본이 적은 경우에 사용.
표본이 30개 넘어가면 모평균, 표본평균 구함.
자유도를 이용하여 분포를 구함. 자유도(표본의 개수 or 개수-1)가 커질 수록 정규분포에 가까워짐
=t.dist(x, free, false) 의 free가 커지면 =norm.s.dist() 랑 값이 비슷해 진다.
CH02. 중심극한정리
- 중심극한정리 알아보기
중심극한정리 : 표본이 충분히 많아지면, 표본평균의 분포가 정규분포를 따른다.
이항분포 = binom.dist()
1000개의 데이터의 분포를 보면 모두가 일정한 그래프로 나왔지만,
10개로 묶어 100세트의 분포를 구해보면 정규분포로 수렴한다.