패스트캠퍼스

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 데이터분석기초 줌강의(3)

geraedo 2024. 12. 27. 08:36

주요 학습 내용 요약

 

CH06. 데이터 분석 / 모델링 - 이어서

  • 회귀 분석의 개념 
    : 두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 분석
    y 종속변수(알고싶은 값) = ax 독립변수(알고있는값) + b

  • 회귀 분석의 종류 

    단순 선형 회귀 분석(독립변수가 1개)
    : 오차(실제값-예측값 /순서 뒤바뀌면 안됨)가 적은 것이 관계를 잘 설명하는 분석.
    오차들의 그냥 값을 더하면 0에 수렴하기에, 이 값을 제곱해서 더해야 한다.
    결정계수(r^2)는 0-1의 값을 가지며 1에 가까울수록 회귀모형이 실제 값을 잘 설명함.
    현실에서는 0.3~0.4를 넘는 데이터를 찾기 힘들다.
    F(p-value)값이 0.05미만이면 이 회귀모형은 유의미하므로 사용이 가능함. 

    다중 선형 회귀 분석(독립변수가 여러개)
    : 다중선형회귀 분석에서는 ‘결정계수’가 아니라 ‘조정된 결정계수’(결정계수보다 항상 좀 작게)를 봐야 한다.
    p < 0.05 일때의 변수들만 사용한다. 


  • 데이터분석 - 회귀분석 - y축입력, x축 입력, 이름표 선택, 출력범위 선택 - 확인

  • 데이터 차트 그릴 때 조심해야 하는 경우.
    1. 분산형 차트 - 산점도, 데이터를 선택할 때 조건이 있음.
    데이터의 열 순서가 왼쪽부터 x,y순이어야 그릴 수 있음.
    열순서를 바꿀 수 없을 때는 새 시트에 값을 붙여와서 선택하자.
    2. 거품형 차트 - 왼쪽부터 x,y,거품의 크기 순이어야 그릴 수 있음.
    또한 분산형과 거품형에서는 데이터의 이름을 영역과 함께 선택하면 안된다.

  • 산점도에서 그래프 그리기
    점 아무거나 선택 - 오른쪽 마우스 클릭 - 추세선 추가(기본적으로 선형 추세선)
    - 추세선 서식 - 젤 밑으로 가서 ‘수식을 차트에 표시’ 그러면 방정식이 표시됨.

  • 그래프 형식을 같게 만들고 싶을 때 - 하나를 만들어서 오른쪽 마우스 [서식 저장] 서식을 저장하고
    - 추가로 만들 때 서식을 저장된 서식으로 변경하자.
    이때 저장된 서식의 파일 위치나 이름은 변경하면 안된다. 


  • 시계열 데이터 분석
    :  시간의 흐름에 따라 발생된 데이터를 분석하는 기법
    ex) 주가 / 정상성 : 추세나 계절성을 가지고 있지 않으며, 관측된 시간에 무관한 성질
    (계절성 - 비슷한 패턴이 계절에 따라 변할 때 ) 아무런 패턴을 가지고 있지 않음.
    정상 데이터보다 비정상 데이터가 더 많음
  • 이동평균선 
    : 5일치의 평균, 20, 100, 등, 평균을 내는 기간이 길어질 수록 그래프가 완만해짐

  • 지수 평활법(Exponential Smoothing )
    : 현재 시점에 가까운 시계열 잘료에 큰 가중치를 주고, 과거 시계열 데이터일수록 작은 가중치를 주어 미래 시계열 데이터를 예측하는 기법

  • 단순 지수 평활법(Single -)
    : 미래의 예측 값 = 과거의 실제 값*a + 과거의 예측 값*(1-a)
    a = 실제값을 반영할 가중치 (0~1 사이의 값)

  • FORECAST.ETS
    : 엑셀에서 사용할 수 있는 지수 평활법 관련 예측 함수
    =forecast.ets(target_data, 알고있는 실제값, 과거의 날짜, [계절성주기], [누락데이터처리], [중복시계열처리])
    =forecast.ets
      (2021-01-01, 이전 과거 매출 전체 $E, 이전 과거 날짜 $B$2:$B$40
      , [계절성 주기를 알때는 직접 쓰기 12 (0을 쓰면 계절성 주기가 없음, 1을 쓰면 컴퓨터가 알아서 계산하기)]
      , [0(비어있으면 0) or 1(선형보간, 이전데이터와 다음데이터의 평균) 제일 좋은 건 빈칸이 없도록 전처리]
      , [중복된 시계열 데이터가 있을 떄 평균 값 사용 1])

    : 그래프 그리기 -> 연도~forecast.ets열까지 다 선택 - 삽입 - 꺾은선형(젤앞) 
    이때 예측값의 색깔을 다르게 표현하기 위해 예측값과 실제값의 열이 달라야 한다.
    그래프가 끊어졌다면 2020-12-01날짜의 forecastt.ets자리에도 실제값과 같은 값을 넣어주면 그래프가 이어진다. 
    계획치나 예측치는 점선으로 많이 표현됨 / 점선택 - 오른쪽클릭 - 윤관선 대시
    주의해야 할 점 - 이 예측치를 내년 예산값으로 바로 사용하면 안된다.좋은 결과는 객관적 지표와 주관적 직관이 포함


  • 예측치가 정확한지 알고자 한다면 우리가 알고 있는 2020년도의 값을
    2017,18,19년도를 활용해서 만든 2020예측값과 비교하면 된다.
    계절성을 지니고 있다고 인정하려면 최소 3년의 데이터가 있어야 한다.
    그러나 10년치가 있다고 10년을 다 사용하는 것이 좋은 건 아니다.
    10년치 구하고, 7년치 구하고, 5년치, 3년치를 다 구해서,
    어느 것이 정확도가 가장 높은지 체크한 후 디벨롭하는게 좋다.

  • 머신러닝 machine learning
    : 경험과 학습을 통해 자동으로 개선하는 알고리즘 연구.
    {인공지능 -사고나 학습 등 인간이 가진 지적 능력을 컴퓨터를 통해 구현하는 기술
    [머신러닝 - 컴퓨터가 스스로 ‘학습’하여 인공지능의 성능을 향상시키는 기술 방법
    (딥러닝 - 인간의 뉴런과 비슷한 인공신경망 방식으로 정보를 처리)]}
    : 컴퓨터가 어떤 작업(t)을 하는데 있어, 경험(e)으로부터 학습하여 성능(p)을 향상시키는 학문
    : 학습 방법에 따라 지도학습, 비지도학습, 강화학습으로 구분.

  • 지도학습 supervised learning
    : 우리가 흔히 알고 있는 것들의 대부분이 사용함.
    정답(y)이 있는 데이터를 활용해 데이터를 학습, 70%의 training 데이터 30%의 test 데이터
    : regression - 연속형 수치의 입력 값을 활용해 특정 수치를 예측, 기온 예측, 주가 예측, 다음 해 매출액 예측
    : classification - 주어진 입력 값을 2개 혹은 여러 개의 결과값으로 분류,
      ex) 스팸 메일여부, 대출 상환여부, 구매 고객군 분류

  • 비지도학습(unsupervised learning)
    : 정답이 없는 데이터, 데이터가 어떻게 구성되어 있는지 어떻게 분류될 수 있는지에 대한 문제 해결
    : 대표적 알고리즘 - clustering 군집화 (지도학습의 분류예측은 답이 있는 분류, 군집은 일단 비슷한 것들끼리 분류)

  • 강화학습(reinforcement learning)
    : 행동에 대한 보상 또는 벌점을 주어 가장 큰 보상을 받는 방향으로 유도.
    가장 큰 보상을 얻기 위해 에이전트가 해야 할 행동을 선택하는 방법을 정의 = 정책