패스트캠퍼스

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(2)

geraedo 2024. 12. 27. 08:01

주요 학습 내용 요약

 

Part3. 비전공자를 위한 왕초보 기초 통계(고등부터 기술통계까지)

 

CH02. 기술통계

  • 기술통계와 추론통계의 차이점
    기술통계 : 요약, 통계량, 시각화, 특징 파악,  EDA단계
    추론통계 : 추출한 샘플 사용, 모집단에 대한 추론이 목적, 가설검정

  • 대표값과 기초통계량
    대푯값 : 자료의 특성을 나타내는 대표성을 띠는 수치
    기초통계량 : 중심경향성, 퍼짐정도, 왜도 : 좌우 비대칭성 정도, 첨도 : 뾰족한 정도

  • 기초통계량 - 중심경향성
    최빈값 : 가장 빈번한 값, 범주형 자료에서 대표값으로 주로 사용, ex)  혈액형
    중앙값 : 크기 순으로 나열 시 가운데 위치 값, 순서형 자료의 대표값, 이상치에 영향 x
    산술평균 : 자료의 값을 더해서 수로 나눔. 주로 연속형 자료에서 사용, 이상치에 영향 o
    가중평균 : 자료의 중요도에 따라 가중치를 부여한 평균
    기하평균 : 성장률 등 이전 시점에 대한 비율에 대한 평균을 구할 때 유용, ex) CAGR, 주가상승률 

 

 

  • 기초통계량 - 왜도, 첨도
    왜도 : 정규분포에 비해 얼마나 비대칭적인지 나타냄.
    Negative Skew <0 - 우편향성 / 좌우대칭 0 /Positive Skew >0 - 좌편향성 / (mode = 최빈값)
    왜도 < -3 오른쪽으로 쏠림 / 왜도 > 3 왼쪽으로 쏠림

    첨도 : 중심에 얼마가 가까이 몰려있는지, 양쯕 꼬리의 두터움 정도 나타냄,
    편차 큰 데이터 많을 수록 커짐, 이상치에 영향을 많이 받음
    첨도 > 0 - 가운데에 엄청 몰려있음 / < 0 - 양쪽에 퍼져있음.
    덜 뾰족 -8 < 정규분포랑 비슷하다 < 8 더 뾰족

 

CH03. 회귀분석, 공분산, 상관계수

  • 회귀분석을 공부하는 이유
    회귀분석 : 변수 사이의 모형f(x)을 구한 뒤, 적합도(y)를 측정해 내는 분석 방법, 선형 회귀 모형
    장점 : 둘 이상의 변수 간의 관계를 보여주는 통계적 방법.
    종속 변수에 영향 미치는 독립변수 영향력 판단가능.
    주의점 : 인과관계를 설명해 주지는 못한다.

  • 공분산 기본 개념
    공분산 : 2개의 확률변수의 ‘선형 관계’를 나타내는 값
    부호 : cov(x,y) < 0 = 음의 상관관계 / 0 = 상관관계 없음 / > 0 = 양의 상관관계

  • 표본공분산 :
    주의점 : 두 변수가 아무 관계 없는 독립 변수일 때 -> 공분산 = 0
    공분산 = 0 -> 두 변수가 독립은 아닐 수 있음

  • 상관계수 기본 개념
    피어슨 상관 계수 : -1 <= r =< 1,
    절대값이 0.5~0.7 이상이면 강한 상관관계를 가진다고 봄. 그러나 도메인에 따라 다름.