Colab
온라인에서 파이썬 데이터분석을 할 수 있는 환경
https://colab.research.google.com/notebooks/welcome.ipynb
Welcome To Colab
Run, share, and edit Python notebooks
colab.research.google.com
실행 단축키: Cmd + Enter (Ctrl + Enter)
python
list
: 순서(인덱스)가 있는 데이터들의 모음집
선언과 할당
a_list = [1, 2, 3, 4, 5]
b_list = [1, 2, "10", [3]] # 다양한 자료형이 하나의 리스트에 할당될 수 있다
dictionary
: key-value 쌍으로 이루어진 데이터 모음집
선언과 할당
김철수 = {'height': 183, 'weight': 68, ... }
사용
print(김철수['height']) # 183
Pandas와 matplotlib를 이용해 데이터 분석하기
다시 타이타닉 생존자 데이터를 분석해보자
Pandas
: 데이터 분석 기본 세팅 (클렌징) + 데이터 분석에 사용하는 라이브러리
데이터 분석 기본 세팅하기
1) Pandas 라이브러리 사용 선언
import pandas as pd
pandas 라이브러리를 pd로 임포트
2) 데이터 가져오기
colab 좌측 메뉴바 파일 아이콘 > 세션 저장소에 업로드 눌러 분석할 파일 업로드
3) 데이터 확인 및 표 읽기
import pandas as pd
titanic = pd.read_table('train.csv', sep=',') # train.csv는 읽어올 파일경로
엑셀 파일 읽어오는 법
titanic = pd.read_excel('파일이름.xlsx', engine='openpyxl')
파일 내 데이터를 확인하기
titanic.head() # 5개 데이터 출력
titanic.head(100) # 100개 데이터 출력
4) 공백란 제거하기
print(titanic.isnull().sum()) # null 데이터 파악하기
null인 데이터의 합계를 확인해보니 Age에서 177개의 null값 확인
titanic = titanic.dropna()
null값을 제거한 데이터를 다시 titanic에 할당
분석하기
- pearson 방법론을 사용해 분석하고, 그 결과를 corr이라는 변수에 저장
corr = titanic.corr(method='pearson')
- survived와 상관관계가 1인 것은 제외 (survived가 survived와 1이기 때문에..)
corr = corr[corr.Survived != 1]
matplotlib로 시각화하기
1) matplotlib 사용 선언하기
import matplotlib.pyplot as plt
2) 그래프 그리기
corr['Survived'].plot()
3) 그래프로 사용할 부분만 남기기
PassengerId는 승객을 구분하기 위한 아이디일 뿐, 생존률과 관계가 없을 것
제거해보자!
corr = corr.drop(['PassengerId'], axis = 'rows')
4) 원하는 그래프로 변경하기
막대그래프 형태로 보려면?
corr['Survived'].plot.bar()
=> 결론! 생존률과 가장 상관관계가 높은 것은 성별이다
성별 > 좌석 클래스 > 지불 비용
'데이터분석' 카테고리의 다른 글
피마 인디언 당뇨병 분석 (0) | 2024.12.20 |
---|---|
데이터 분석의 기본 구조 (0) | 2024.12.18 |