패스트캠퍼스

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(1)

geraedo 2024. 12. 27. 07:29

주요 학습 내용 요약

 

Part2. 비전공자도 엑셀만 알아도 시작할 수 있는 데이터 탐색

 

CH01. 데이터 탐색

  • 대표값으로 데이터 탐색
    평균, 중위값, 최빈값, 최소값, 사분위수, 최대값
  • 차트로 데이터 탐색
    분포의 중심 : 평균, 중위값, 최빈값
    분포의 퍼짐 : 분산, 표준편차, 사분위수, 변동계수
    분포의 모양(비대칭성)  왜도(skewness), 첨도(kurtosis)
  • 상관관계로 데이터 탐색
    IRIS dataset - 변수간 상관분석, 시각화

CH02. 데이터 탐색과 통계 필요성

  • 탐색 과정의 목적 : 어떤 변수가 결론에 많은 영향을 미치는지 파악
    유의미한 변수 탐색, 변수 간 독립성 확보, 의미없는 데이터 제거 (효율성, 차원축소)
  • 피벗테이블로 기술 통계량 확인 :
    히스토그램(숫자형 변수), 산점도(상관관계), Box plot(분위수 시각화 및 이상치 파악)

Part3. 비전공자를 위한 왕초보 기초 통계

 

CH01. 기초통계

  • 변량, 도수, 상대도수, 도수분포표, 히스토그램

    변량 : 자료의 수치, 데이터의 값을 의미
    계급 : 변량을 일정한 간격으로 나누는 구간, 변량의 최소, 최대를 고려, 적당한 간격
    도수 : 각 계급에 속하는 변량의 개수
    상대 도수 : 각계급에 속하는 변량의 비율
    도수분포표 : 주어진 자료를 계급에 따라 나눈 표, 계급에 속하는 도수 표현, 순서대로 요약
    - 장점 : 구간별 분포를 한눈에 알아보기 좋음
    - 단점 : 각 변량의 정확한 값을 생략
    히스토그램 : 도수분포표를 시각화해서 보는 가장 기본적인 방법. 계급-도수

  • 평균, 분산, 표준편차 개념( 도수 있는 경우와 없는 경우)

    평균 : 산술평균 - 변량의 합을 변량의 수로 나눈 값 / df[‘value’].mean()
    분산 : 변량이 중심에서 얼마나 떨어져 있는지를 보기 위한 통계량
    편차 : 변량에서 평균을 뺀 값
    분산 : 편차를 제곱해서 더한 값
    표준편차 : 분산의 제곱근, 관찰값들의 흩어진 정도, 편차의 평균과 비슷한 의미를 가지는 통계량
                     변량을 표준화(정규분포)할 수 있는 수단.

  • 정규분포, 표준정규분포, 표준화
    정규분포 : 평균μ, 표준편차σ 에 대해 아래의 확률밀도함수를 가지는 함수
                     다양한 연속적인 데이터들이 종모양의 형태를 띤다는 것을 확인
    중심극한정리 : 독립적인 확률변수들의 평균은 항상 정규분포에 가까워진다.
    표준정규분포 : 정규분포중에서 평균이 0, 표준편차가 1인 정규분포
    표준화 : 다양하게 생긴 정규분포를 표준정규분포로 변환하는 방법
                  이를 활용하면 아무리 다른 모양이더라도 분포의 확률을 구할 수 있음
  • 모집단, 표본, 모평균, 표본평균, 모분산, 표본분산

    모집단 : 조사 대상이 되는 전체 집합
    모수 : 모집단에 대한 요약된 수치, 값에 대한 평균이나 비율 등
    표본 : 모집단을 “대표”하는 모집단의 일부, 잘 모으는 게 중요
    통계량 : 표본에 대한 수치적 요약, 통계량을 바탕으로 모수를 추정하는 것이 추론통계.
    모평균μ , 표본평균¯X, 모분산σ^2, 표본분산 s^2

    = var.p (모분산) =var.s (표본분산)

  • 추정, 신뢰도, 신뢰구간

    표본 추출의 목적 : 표본으로 모집단을 추정하기 위해, 표본이 커질수록 모평균에 가까워짐.
    표본을 몇개정도 가져야 확신을 가질 수 있느냐 ? -> 신뢰도, 신뢰구간
    신뢰도 : 모평균이라고 믿을 수 있는 정도, 95%, 99%를 주로 사용

    표본의 수가 커지면 커질 수록 이 구간이 좁아져야 함
    신뢰구간 : 모평균의 추정 구간, 신뢰도에 따라, 표본의 수에 따라 정해짐
    +-1.65 -> 90% / -1.96 <=< 1.96 -> 95% / +-2.58 -> 99%