[패스트캠퍼스] 데이터 분석 부트캠프 17기

패스트캠퍼스

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(1)

geraedo 2024. 12. 27. 07:29

주요 학습 내용 요약

Part2. 비전공자도 엑셀만 알아도 시작할 수 있는 데이터 탐색

CH01. 데이터 탐색

대표값으로 데이터 탐색
평균, 중위값, 최빈값, 최소값, 사분위수, 최대값
차트로 데이터 탐색
분포의 중심 : 평균, 중위값, 최빈값
분포의 퍼짐 : 분산, 표준편차, 사분위수, 변동계수
분포의 모양(비대칭성) 왜도(skewness), 첨도(kurtosis)
상관관계로 데이터 탐색
IRIS dataset - 변수간 상관분석, 시각화

CH02. 데이터 탐색과 통계 필요성

탐색 과정의 목적 : 어떤 변수가 결론에 많은 영향을 미치는지 파악
유의미한 변수 탐색, 변수 간 독립성 확보, 의미없는 데이터 제거 (효율성, 차원축소)
피벗테이블로 기술 통계량 확인 :
히스토그램(숫자형 변수), 산점도(상관관계), Box plot(분위수 시각화 및 이상치 파악)

Part3. 비전공자를 위한 왕초보 기초 통계

CH01. 기초통계

변량, 도수, 상대도수, 도수분포표, 히스토그램

변량 : 자료의 수치, 데이터의 값을 의미
계급 : 변량을 일정한 간격으로 나누는 구간, 변량의 최소, 최대를 고려, 적당한 간격
도수 : 각 계급에 속하는 변량의 개수
상대 도수 : 각계급에 속하는 변량의 비율
도수분포표 : 주어진 자료를 계급에 따라 나눈 표, 계급에 속하는 도수 표현, 순서대로 요약
- 장점 : 구간별 분포를 한눈에 알아보기 좋음
- 단점 : 각 변량의 정확한 값을 생략
히스토그램 : 도수분포표를 시각화해서 보는 가장 기본적인 방법. 계급-도수
평균, 분산, 표준편차 개념( 도수 있는 경우와 없는 경우)

평균 : 산술평균 - 변량의 합을 변량의 수로 나눈 값 / df[‘value’].mean()
분산 : 변량이 중심에서 얼마나 떨어져 있는지를 보기 위한 통계량
편차 : 변량에서 평균을 뺀 값
분산 : 편차를 제곱해서 더한 값
표준편차 : 분산의 제곱근, 관찰값들의 흩어진 정도, 편차의 평균과 비슷한 의미를 가지는 통계량
변량을 표준화(정규분포)할 수 있는 수단.
정규분포, 표준정규분포, 표준화
정규분포 : 평균μ, 표준편차σ 에 대해 아래의 확률밀도함수를 가지는 함수
다양한 연속적인 데이터들이 종모양의 형태를 띤다는 것을 확인
중심극한정리 : 독립적인 확률변수들의 평균은 항상 정규분포에 가까워진다.
표준정규분포 : 정규분포중에서 평균이 0, 표준편차가 1인 정규분포
표준화 : 다양하게 생긴 정규분포를 표준정규분포로 변환하는 방법
이를 활용하면 아무리 다른 모양이더라도 분포의 확률을 구할 수 있음
모집단, 표본, 모평균, 표본평균, 모분산, 표본분산

모집단 : 조사 대상이 되는 전체 집합
모수 : 모집단에 대한 요약된 수치, 값에 대한 평균이나 비율 등
표본 : 모집단을 “대표”하는 모집단의 일부, 잘 모으는 게 중요
통계량 : 표본에 대한 수치적 요약, 통계량을 바탕으로 모수를 추정하는 것이 추론통계.
모평균μ , 표본평균¯X, 모분산σ^2, 표본분산 s^2

= var.p (모분산) =var.s (표본분산)
추정, 신뢰도, 신뢰구간

표본 추출의 목적 : 표본으로 모집단을 추정하기 위해, 표본이 커질수록 모평균에 가까워짐.
표본을 몇개정도 가져야 확신을 가질 수 있느냐 ? -> 신뢰도, 신뢰구간
신뢰도 : 모평균이라고 믿을 수 있는 정도, 95%, 99%를 주로 사용

표본의 수가 커지면 커질 수록 이 구간이 좁아져야 함
신뢰구간 : 모평균의 추정 구간, 신뢰도에 따라, 표본의 수에 따라 정해짐
+-1.65 -> 90% / -1.96 <=< 1.96 -> 95% / +-2.58 -> 99%

'패스트캠퍼스' 카테고리의 다른 글

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(3) (0)	2024.12.27
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(2) (1)	2024.12.27
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 1주차 데이터분석기초 줌강의(2) (1)	2024.12.22
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 1주차 데이터분석기초 줌강의(1) (1)	2024.12.22
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 1주차 Excel 온라인강의 (2) 엑셀 기능, 엑셀 시각화 (1)	2024.12.19

현재글[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(1)

그래도-계속

이것저것 기록용 블로그입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

그래도-계속

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(1)

'패스트캠퍼스' 카테고리의 다른 글

'패스트캠퍼스'의 다른글

티스토리툴바

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(1)

'패스트캠퍼스' 카테고리의 다른 글

'패스트캠퍼스'의 다른글

관련글

티스토리툴바