주요 학습 내용 요약
CH01. 데이터 분석의 정의
- 기술적 데이터 리터러시 (Technical이 아닌 ‘기술하다’의 기술) / 해석적 데이터 리터러시
sales의 합계가 얼마일까요 ? 라고 물을 때 계산서를 두드리기 보다
대략적으로 얼마인지 “빠르게” 파악하는 것이 중요하다. - 데이터 분석의 정의
- 의사결정을 지원하는 것을 목표
- 의사결정을 더 과학적으로
- 비즈니스를 더 효율적으로 - 문제 : 현재에서 미래로 도달하는 과정
데이터 분석은 현실에 살고 있는 우리를 더 나은 미래로 나아가게 할 Key
이 정의를 외우라는 것이 아니라, 질문이 기억에 남았으면 좋겠는 강사님의 마음
나만의 정의를 세워라 - 데이터 분석의 목적
인사이트 도출 -> 장기적인 관점에서 어떤 교훈을 얻을 것이냐.
Citizen Data Scientist CDS : 다른 주업무에 데이터 분석을 활용할 수 있는 사람.
데이터 사이언티스트와 직무/산업 전문가의 중간다리 역할 수행.
CH02. 데이터 분석에 필요한 Miind Set
- Snorkel & Dive
넓은 시야로 데이터를 바라보다가도 필요한 순간에는 데이터에 숨겨진 의미를 파악하는 수준까지 깊게 파고듦
- Fun & Fun
더 나은 미래를 위한다는 마음으로
- Be Patient
끊임없이 파악하는 마음으로, 깔끔한 데이터는 존재하지 않는다.
CH03. 엑셀의 기본 활용
- 엑셀을 잘한다는 것
사용자의 입장에서 목적에 부합하도록 자료를 구성하는 것 - ctrl+shift+1,2,3,4 = 일반, 숫자, 문자 변환
- ctrl+1 셀서식 열기 -> 사용자 지정 -> 형식을 지정할 수 있음
예를 들어 숫자를 () 표시 하고 싶으면 (#) ->
(#) 는 숫자를 의미, 의미 없는 0은 없어짐
(0) 는 숫자를 표현하고, 의미 없는 0도 표현함
ctrl+shift+1 -> 셀서식이 다음으로 바뀜 #,##0 -> 3자리마다 쉼표 찍기
#,##0, -> 1자리수 반올림 / #,##0,, -> 2자리수 반올림 / #,##0,,, -> 3자리수 반올림
CH04. 탐색적 데이터 분석
기존의 통계학의 정보 추출 과정에서 가설 검정 등에 치우쳐 본연의 의미 찾는데 어려움, 이를 보완하고자 하는 과정.
- 수행이유
- 내 입맛대로 수집되는 데이터는 1도 없다
- 수집된 데이터의 특성 및 분포를 파악
- 결측치, 이상치의 존재 유무를 파악
- 분석에 필요한 데이터 전처리를 수행
- 가장 적합한 분석 방법을 결정 - 엑셀실습
파일-옵션-추가기능-젤밑에 이동-분석도구 클릭 => 데이터에 ‘데이터 분석’기능이 생김
데이터 분석- 기술통계법- 입력범위(열이름포함) 첫째 행 이름표 사용, 출력범위(빈칸선택), 요약통계량 체크, 데이터 방향 (열) - 확인
이상치가 존재할 때는 평균값이 데이터를 잘 알려주는 대표값이 아닐 수 도 있음.
이럴 때 중앙값(median)을 고려해 보자. “중앙값은 이상치에 강건하다”
- 피벗테이블 : 요약 통계표
오른쪽 커서 - 필드 목록 보이기 - 피벗 테이블 필드에서 행,열,값 추가해서 만들기
피벗 테이블 도구 - 분석 - 슬라이서 삽입 - 영역 설정 - 슬라이서 만듦
슬라이서 지울 때는 필터를 해제하고 지우는게 좋음
- 결측치: 데이터에 값이 없는 것
NA : Not Available 유효하지 않은
NaN : Not a Number
Null : 아무것도 존재하지 않음을 의미
빈칸 : 데이터가 입력되지 않음
=countblank(범위)
처리 방법: 제거, 치환, 예측
- 이상치
정상군의 번위에서 벗어나거나 패턴에서 벗어난 수치
정규분포의 정의 : 평균으로부터 분포된 범위의 너비가 같은 확률로 분포되도록 따라 만든 기준표.
- 사분위수
데이터를 4등분하는 값
- IQR(Inter Quartile Range)
1사분위수와 3사분위수 간의 거리 = 3사분위수 - 1사분위수 / IQR = 3Q - 1Q
이상치 = 1Q -1.5*IQR > or > 3Q +1.5*IQR
- Box Plot (상자 도표)
이상치를 합하여 데이터의 분포와 범위를 표현한 그래프
박스의 높이가 IQR
측정 데이터 분류 선택 - 삽입 - 통계 차트 삽입 - 상자수염그림
새롭게 알게 된 점 또는 깊이 있게 이해한 내용
방대한 양의 데이터를 한 표로 요약하여 빠르게 파악하는 방법을 알게 되었다.
피벗 테이블은 원하는 그래프를 그릴 때만 사용해 보았었는데,
이 테이블에 여러 행과 열을 조합하여 넣어보면서 데이터를 파악할 수 있다는 것이 의미 있는 배움이었다.
강사님께서 서울 따릉이의 이용자 데이터를 가지고 탐색하는 과정을 보여주셨는데
그때 데이터 탐색과정이 참 재밌다는 생각이 확 들었던 것 같다.
거창한 코딩 없이 엑셀로도 할 수 있다는 것을 배우니,
나 혼자서도 데이터를 보는 방법을 연습할 수 있음을 깨달았고,
얼른 공부해야 겠다 생각이 들었다.
추가로 조사한 관련 정보나 응용 방안
데이터의 속성
'패스트캠퍼스' 카테고리의 다른 글
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 통계 온라인강의(1) (0) | 2024.12.27 |
---|---|
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 1주차 데이터분석기초 줌강의(2) (1) | 2024.12.22 |
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 1주차 Excel 온라인강의 (2) 엑셀 기능, 엑셀 시각화 (1) | 2024.12.19 |
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 1주차 Excel 온라인강의 (1) 엑셀 기초, 엑셀 함수 (0) | 2024.12.19 |
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - OT (1) | 2024.12.19 |