패스트캠퍼스

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 1주차 데이터분석기초 줌강의(1)

geraedo 2024. 12. 22. 07:21

주요 학습 내용 요약

 

CH01. 데이터 분석의 정의

 

  • 기술적 데이터 리터러시 (Technical이 아닌 ‘기술하다’의 기술) / 해석적 데이터 리터러시
    sales의 합계가 얼마일까요 ? 라고 물을 때 계산서를 두드리기 보다
    대략적으로 얼마인지 “빠르게” 파악하는 것이 중요하다. 

  • 데이터 분석의 정의
    - 의사결정을 지원하는 것을 목표
    - 의사결정을 더 과학적으로
    - 비즈니스를 더 효율적으로

  • 문제 : 현재에서 미래로 도달하는 과정
    데이터 분석은 현실에 살고 있는 우리를 더 나은 미래로 나아가게 할 Key
    이 정의를 외우라는 것이 아니라, 질문이 기억에 남았으면 좋겠는 강사님의 마음
    나만의 정의를 세워라

  • 데이터 분석의 목적
    인사이트 도출 -> 장기적인 관점에서 어떤 교훈을 얻을 것이냐. 
    Citizen Data Scientist CDS : 다른 주업무에 데이터 분석을 활용할 수 있는 사람.
    데이터 사이언티스트와 직무/산업 전문가의 중간다리 역할 수행.

CH02. 데이터 분석에 필요한 Miind Set

  • Snorkel & Dive
    넓은 시야로 데이터를 바라보다가도 필요한 순간에는 데이터에 숨겨진 의미를 파악하는 수준까지 깊게 파고듦
  • Fun & Fun
    더 나은 미래를 위한다는 마음으로 
  • Be Patient
    끊임없이 파악하는 마음으로, 깔끔한 데이터는 존재하지 않는다.

CH03. 엑셀의 기본 활용

 

  • 엑셀을 잘한다는 것
    사용자의 입장에서 목적에 부합하도록 자료를 구성하는 것

  • ctrl+shift+1,2,3,4 = 일반, 숫자, 문자 변환
  • ctrl+1 셀서식 열기 -> 사용자 지정 -> 형식을 지정할 수 있음
    예를 들어 숫자를 () 표시 하고 싶으면 (#) ->
    (#) 는 숫자를 의미, 의미 없는 0은 없어짐
    (0) 는 숫자를 표현하고, 의미 없는 0도 표현함
    ctrl+shift+1 -> 셀서식이 다음으로 바뀜 #,##0 -> 3자리마다 쉼표 찍기
    #,##0, -> 1자리수 반올림 / #,##0,, -> 2자리수 반올림 / #,##0,,, -> 3자리수 반올림

 

CH04. 탐색적 데이터 분석

 

기존의 통계학의 정보 추출 과정에서 가설 검정 등에 치우쳐 본연의 의미 찾는데 어려움, 이를 보완하고자 하는 과정.

 

  • 수행이유
    - 내 입맛대로 수집되는 데이터는 1도 없다
    - 수집된 데이터의 특성 및 분포를 파악
    - 결측치, 이상치의 존재 유무를 파악
    - 분석에 필요한 데이터 전처리를 수행
    - 가장 적합한 분석 방법을 결정

  • 엑셀실습

    파일-옵션-추가기능-젤밑에 이동-분석도구 클릭 => 데이터에 ‘데이터 분석’기능이 생김
    데이터 분석- 기술통계법- 입력범위(열이름포함) 첫째 행 이름표 사용, 출력범위(빈칸선택), 요약통계량 체크, 데이터 방향 (열) - 확인
    이상치가 존재할 때는 평균값이 데이터를 잘 알려주는 대표값이 아닐 수 도 있음.
    이럴 때 중앙값(median)을 고려해 보자.  “중앙값은 이상치에 강건하다”

    - 피벗테이블 : 요약 통계표
      오른쪽 커서 - 필드 목록 보이기 - 피벗 테이블 필드에서 행,열,값 추가해서 만들기
      피벗 테이블 도구 - 분석 - 슬라이서 삽입 - 영역 설정 - 슬라이서 만듦
      슬라이서 지울 때는 필터를 해제하고 지우는게 좋음

    - 결측치: 데이터에 값이 없는 것
      NA : Not Available 유효하지 않은 
      NaN : Not a Number
      Null : 아무것도 존재하지 않음을 의미
      빈칸 : 데이터가 입력되지 않음
      =countblank(범위)  
      처리 방법: 제거, 치환, 예측

    - 이상치
      정상군의 번위에서 벗어나거나 패턴에서 벗어난 수치
      정규분포의 정의 : 평균으로부터 분포된 범위의 너비가 같은 확률로 분포되도록 따라 만든 기준표.

    - 사분위수
      데이터를 4등분하는 값

    - IQR(Inter Quartile Range)
      1사분위수와 3사분위수 간의 거리 = 3사분위수  - 1사분위수 / IQR = 3Q - 1Q
      이상치 = 1Q -1.5*IQR > or > 3Q +1.5*IQR

    - Box Plot (상자 도표)
      이상치를 합하여 데이터의 분포와 범위를 표현한 그래프
      박스의 높이가 IQR
      측정 데이터 분류 선택 - 삽입 - 통계 차트 삽입 - 상자수염그림

새롭게 알게 된 점 또는 깊이 있게 이해한 내용

 

방대한 양의 데이터를 한 표로 요약하여 빠르게 파악하는 방법을 알게 되었다.

피벗 테이블은 원하는 그래프를 그릴 때만 사용해 보았었는데,

이 테이블에 여러 행과 열을 조합하여 넣어보면서 데이터를 파악할 수 있다는 것이 의미 있는 배움이었다.

강사님께서 서울 따릉이의 이용자 데이터를 가지고 탐색하는 과정을 보여주셨는데

그때 데이터 탐색과정이 참 재밌다는 생각이 확 들었던 것 같다.

거창한 코딩 없이 엑셀로도 할 수 있다는 것을 배우니,

나 혼자서도 데이터를 보는 방법을 연습할 수 있음을 깨달았고,

얼른 공부해야 겠다 생각이 들었다.


추가로 조사한 관련 정보나 응용 방안

데이터의 속성

참고 : https://eda-ai-lab.tistory.com/13
참고 : https://eda-ai-lab.tistory.com/13