[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(2)

패스트캠퍼스

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(2)

geraedo 2024. 12. 27. 08:01

주요 학습 내용 요약

Part3. 비전공자를 위한 왕초보 기초 통계(고등부터 기술통계까지)

CH02. 기술통계

기술통계와 추론통계의 차이점
기술통계 : 요약, 통계량, 시각화, 특징 파악, EDA단계
추론통계 : 추출한 샘플 사용, 모집단에 대한 추론이 목적, 가설검정
대표값과 기초통계량
대푯값 : 자료의 특성을 나타내는 대표성을 띠는 수치
기초통계량 : 중심경향성, 퍼짐정도, 왜도 : 좌우 비대칭성 정도, 첨도 : 뾰족한 정도
기초통계량 - 중심경향성
최빈값 : 가장 빈번한 값, 범주형 자료에서 대표값으로 주로 사용, ex) 혈액형
중앙값 : 크기 순으로 나열 시 가운데 위치 값, 순서형 자료의 대표값, 이상치에 영향 x
산술평균 : 자료의 값을 더해서 수로 나눔. 주로 연속형 자료에서 사용, 이상치에 영향 o
가중평균 : 자료의 중요도에 따라 가중치를 부여한 평균
기하평균 : 성장률 등 이전 시점에 대한 비율에 대한 평균을 구할 때 유용, ex) CAGR, 주가상승률

기초통계량 - 왜도, 첨도
왜도 : 정규분포에 비해 얼마나 비대칭적인지 나타냄.
Negative Skew <0 - 우편향성 / 좌우대칭 0 /Positive Skew >0 - 좌편향성 / (mode = 최빈값)
왜도 < -3 오른쪽으로 쏠림 / 왜도 > 3 왼쪽으로 쏠림

첨도 : 중심에 얼마가 가까이 몰려있는지, 양쯕 꼬리의 두터움 정도 나타냄,
편차 큰 데이터 많을 수록 커짐, 이상치에 영향을 많이 받음
첨도 > 0 - 가운데에 엄청 몰려있음 / < 0 - 양쪽에 퍼져있음.
덜 뾰족 -8 < 정규분포랑 비슷하다 < 8 더 뾰족

CH03. 회귀분석, 공분산, 상관계수

회귀분석을 공부하는 이유
회귀분석 : 변수 사이의 모형f(x)을 구한 뒤, 적합도(y)를 측정해 내는 분석 방법, 선형 회귀 모형
장점 : 둘 이상의 변수 간의 관계를 보여주는 통계적 방법.
종속 변수에 영향 미치는 독립변수 영향력 판단가능.
주의점 : 인과관계를 설명해 주지는 못한다.
공분산 기본 개념
공분산 : 2개의 확률변수의 ‘선형 관계’를 나타내는 값
부호 : cov(x,y) < 0 = 음의 상관관계 / 0 = 상관관계 없음 / > 0 = 양의 상관관계
표본공분산 :
주의점 : 두 변수가 아무 관계 없는 독립 변수일 때 -> 공분산 = 0
공분산 = 0 -> 두 변수가 독립은 아닐 수 있음
상관계수 기본 개념
피어슨 상관 계수 : -1 <= r =< 1,
절대값이 0.5~0.7 이상이면 강한 상관관계를 가진다고 봄. 그러나 도메인에 따라 다름.

'패스트캠퍼스' 카테고리의 다른 글

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 데이터분석기초 줌강의(3) (0)	2024.12.27
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(3) (0)	2024.12.27
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(1) (0)	2024.12.27
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 1주차 데이터분석기초 줌강의(2) (1)	2024.12.22
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 1주차 데이터분석기초 줌강의(1) (1)	2024.12.22

현재글[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(2)

그래도-계속

이것저것 기록용 블로그입니다.

Today :
Yesterday :

티스토리툴바