전체 글 63

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 5주차 (7) BeautifulSoup

주요 학습 내용 요약웹 데이터 수집 라이브러리 1. 웹크롤링 웹페이지 정보 - Requests 라이브러리 사용HTML 소스 파싱 정보 - BeautifulSoup 라이브러리 사용사용자는 접속하고 싶은 주소(url) 입력 -> 브라우저가 주소의 서버에게 페이지 구성 정보 요청(request)-> 웹 서버는 코드(html)로 전달(response)-> 브라우저는 html 해석해서 사용자 화면에 보여줌BeautifulSoupHTML은 태그로 이루어지고, 많은 공백, 변하는 소스때문에 오류 가능성 -> BS가 오류 고친후 전달- pip install beautifulsoup4- from bs4 import BeautifulSoupHTML 파싱soup = BeautifulSoup(html, 'html.parser..

패스트캠퍼스 2025.01.14

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 5주차 (6) pandas 보강

주요 학습 내용 요약 pandas 보충으로 기억하고 있을 내용 pandas 데이터 통계 - median()- agg([함수1, 함수2, 함수3,...]) #모든 열에 여러 함수, ({'열1':함수1, '열2':함수2,...})- value_counts() 데이터 시각화 라이브러리 matplotlib - 하나를 입력하면 y값으로 인식, x값은 기본적으로 0,1,2..으로 생성- xlim([min, max]), ylim([min, max]), axis([xmin, xmax, ymin, ymax])- legend(loc='upper right', ncol=2)- tight_layout() 그래프를 그릴때 충분한 여백이 있도록 출력해줌. subplot때 사용하기 좋음- 선종류 설정  : '--',':','-.'..

패스트캠퍼스 2025.01.14

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 5주차 (5) 타이타닉 분석

주요 학습 내용 요약 titanic 데이터 살펴보기 1. 각 컬럼별 생존율 구하는 함수 만들기 2. 요금을 많이 낸 사람의 생존 확률 3. 이름이 생존확률에 영향을 줬을까 ?4. 나이는 어떨까 ?- 나이 nan값 먼저 처리하기   : (1) 나이 전체 평균을 빈 값에 채워 넣기   : (2) Name_Tile의 평균을 빈 값에 채워 넣기 5. 범주형 데이터들을 카테고리화 하기(1) Age 카테고리(2) Fare 카테고리

패스트캠퍼스 2025.01.14

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 5주차 (4) 바이크 분석

주요 학습 내용 요약데이터 시각화 - Seaborn 실습 london_merged 산탄데르 바이크 수요 예측 실습 (1) 시간별 데이터 분석     : 산탄데르 바이크의 시간대별 수요 파악     : to_datetime, dt.date, dt.hour ... (2) 날씨의 영향 (3) 주말 및 공휴일의 영향 (4) 계절별 수요 분석 (5) 이상치 제거 + 경고 무시 코드

패스트캠퍼스 2025.01.14

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 5주차 (3) seaborn

주요 학습 내용 요약 데이터 시각화 - Seaborn 1. seaborn 설치 2. 사용해보기    (1) 언제 일을 해야 가장 많은 팁을 받을 수 있나요?     (2) 누구에게 서빙해야 가장 많은 팁을 받나요? (3) sns.lmplot: 컬럼들간의 선형관계를 파악할 수 있는 그래프: 회귀분석(Regression Analysis) -> y = ax + b   - 독립변인이 종속변인에 미치는 영향을 알아보고자 할 때 사용: 상관관계   - -1~1의 사이의 값을 가짐. 절댓값이 클수록 더 높은 상관관계를 가짐.   - 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계  -  np.polyfit 으로 회귀분석 기울기와 y절편을 구할 수 있다.   (4) sns.heatmap(5) sns.p..

패스트캠퍼스 2025.01.14

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 5주차 (2) pyplot

주요 학습 내용 요약 서울시 인구 현황 데이터 실습 1. 데이터 전처리2. 분석 그래프 그리기 Matplotlib1. plot2. 겹쳐그리기3. 각각 그리기 plt.subplots( plt1, plt2, figsize=( , ))4. scatter(x=, y=, label=)5. pie(x=, labels=)6. bar(x=, height=)  그리고 싶은 그래프를 이 사이트에서 찾아서 코드 사용하기https://matplotlib.org/stable/gallery/index.html Examples — Matplotlib 3.10.0 documentationExamples For an overview of the plotting methods we provide, see Plot types This p..

패스트캠퍼스 2025.01.13

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 5주차 (1) 농구선수 분석

주요 학습 내용 요약  농구 선수 데이터 실습  1. 데이터 읽기 데이터로부터 얻을 수 있는 정보들은 내가 어떤 관점에 따라 질문할 것인지에 달라진다.  2. 포지션별 평균 연봉3. 팀별 평균 연봉 4. 학교별 출신 선수 College가 NaN인 선수들은 College를 High로 채워주고 다시 결과를 출력해 보자. 5. 가장 많은 연봉을 받는 선수를 배출한 학교 top 10  6. +데이터 전처리평균 키가 가장 큰 팀은 어디인가요? 7.  value_counts() vs size()

패스트캠퍼스 2025.01.13

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 4주차 (4) pandas

주요 학습 내용 요약 Numpy, DataFrame, Series 이해하기  2. DataFrame & Series DataFrame과 Series가 들어있는 pandas 불러오기!pip install pandasimport pandas as pdSeries : 1차원 데이터- index를 설정할 수 도 있다.  : ls_series = pd.Series(ls, index = [‘a’,’b’,’e’])DataFrame : 2차원 데이터 (Series가 여러개)- df.values, df.index, df.dtypes, df.columns- 데이터프레임 상위 행, 하위 행 확인하기  : .head(행의 개수), .tail(행의 개수)- 데이터프레임 요약 정보 확인하기  : .info(), 컬럼명 null값..

패스트캠퍼스 2025.01.12

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 4주차 (3) Numpy

주요 학습 내용 요약 Numpy, DataFrame, Series 이해하기  1. Numpy 리스트와 다르게 한가지 자료형만 들어간다.그러나 접근과 반복문의 실행이 파이썬리스트보다 빠르다.[1,2]*2 -> [1,2,1,2] 가 아닌 [2,4]로 출력된다.Create- 배열의 차원 조회  arr.ndim- 배열의 크기 조회  arr.shape- 배열의 차원 바꾸기  a = arr.reshape(행, 열) #개수가 맞지 않으면 오류  행 이나 열 중 하나만 정하고 나머지는 정하기 힘들때 -> -1 넣어주기  a = arr.reshape(5, -1)- 행, 열 바꾸기  a = arr.T- 행, 열 크기 조회   이때 len(arr2)=2 행의 값이고, len(arr2[0])=3 열의 값이다.- 타입 변경  ..

패스트캠퍼스 2025.01.12