패스트캠퍼스

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(3)

geraedo 2024. 12. 27. 08:14

주요 학습 내용 요약


Part4. 기술통계 기초 개념을 엑셀 데이터 탐색에 적용해 보기

 

CH01. 대표값으로 데이터 분포 파악하기

  • 대표값 ‘’엑셀 함수’’를 사용해서 데이터 분포 파악하기
    표준오차 = stdev.s() 표준편차 / sqrt(데이터 수 ) = 신뢰수준 구할 때 사용
    첨도 : = kurt(), 왜도 : =skew(), 범위 : 최대값 - 최소값
    제1사분위수 = quartile(범위, 1), 중앙값(2분위수) = quartile(범위, 2),
    최대값(4분위수) = quartile(범위,4) = max()
    IQR : 3사분위수 - 1사분위수

  • 데이터 ‘’분석 도구’’를 사용해서 데이터 분포 파악하기
    [데이터분석] - [기술통계법]

CH02. 이상치 탐지

    • 사분위수 활용 이상치 탐지하기
      이상치 체크 : if(or(값 < (Q1-1.5*IQR), 값 > (Q3+1.5*IQR))) 

    • Z-score 활용해서 이상치 탐지하기 (정규분포에 가까울 때 정확도가 높음)
      if(or(z<-3,z>3) 이상치 / z = (값-m)/std
      m-3*std 보다 작거나, m+3*std 보다 크면 이상치
      (정규분포를 따르는지 체크한 후에, 따르면 사용하는 것을 권장)

    • Box-plot 활용해서 이상치 탐지하기
      [삽입] - [상자수염] - [데이터 레이블] 추가하면 구체적인 값을 볼 수 있음

CH03. 두 변수의 상관관계 분석하기

  • 산점도 활용 및 회귀선 찾기
    선형회귀분석에서 상관관계를 나타내는 지표 : 추세선
    컬럼 선택 - [삽입] - [산점도] - [차트 플러스] - [추세선]
    값으로만 보지 말고, 분포도 등을 눈으로 보고 확인하기 


  • 공분산, 상관계수 측정 및 회귀선 비교하기
    [데이터분석] - [공분산분석] 열 이름 포함 = 정규화 되기 전임
    [상관분석] = 정규화 시키고 비교해서 더 상관도가 정확하게 나옴 

 


Part5. 추론통계 맛보기와 공공데이터 셋 탐색해보기


CH01. 추론통계 맛보기

  • 엑셀에서 표본을 추출하고, 표본평균, 표본표준편차 계산하기
    예제1. 0과 1사이의 난수 10개를 만들고, 이 10개를 표본으로 하여 표본 평균, 표본 분산, 표본 표준 편차를 구하시오 =rand() (값이 계속 변하니까 값만 복붙해주자) / =average() / =var.s() / =stdev.s()
    =randarray(10 행, 1 열, 0 최소, 1최대, false 정수아님)
    =[데이터분석] - [난수생성] - [1양유폼] -[난수시드,0,값고정]

  • 엑셀에서 모평균과, 표본평균, 모분산, 표본분산 계산하기
    예제2-1. 한 학교에서 20명의 학생의 총점이 100점인 시험을 보았다.
    이때 모평균, 모분산, 모표준편차를 구하시오.
    =randarray(20,1,0,100,1) / =average() / =var.p() / =stdev.p()
    예제2-2. 알고봤더니, 전국에서 1000명의 학생이 같은 시험을 보았다.
    이 때 1000명의 모집단의 평균과 표준편차의 추정값을 구하시오.
    표본 =average() =var.s() =atdev.s() / 모 N=1000,

  • 정규분포 관련 함수 알아보기
    = norm.dist(위치, 0 평균, 1 표준편차, false 누적이 아님)  / 정규분포를 따르는 값들을 만들어주는 함수
    마지막 변수 cumulative 누적함수
    norm.inv() / 정규분포 표본 추출
    norm.s.dist / 표준정규분포에 대한 값 만들어주는 함수 / (위치, false)
    norm.s.inv /  역함수, 일대일대응

  • t분포 관련 함수 알아보기
    t분포는 언제 쓰는가? 굉장히 표본이 적은 경우에 사용.
    표본이 30개 넘어가면 모평균, 표본평균 구함.

    자유도를 이용하여 분포를 구함. 자유도(표본의 개수 or 개수-1)가 커질 수록 정규분포에 가까워짐
    =t.dist(x, free, false) 의 free가 커지면 =norm.s.dist() 랑 값이 비슷해 진다.

CH02. 중심극한정리

 

  • 중심극한정리 알아보기
    중심극한정리 : 표본이 충분히 많아지면, 표본평균의 분포가 정규분포를 따른다.
    이항분포 = binom.dist()
    1000개의 데이터의 분포를 보면 모두가 일정한 그래프로 나왔지만,
    10개로 묶어 100세트의 분포를 구해보면 정규분포로 수렴한다.