Colab + python 시작하기

Colab

온라인에서 파이썬 데이터분석을 할 수 있는 환경

https://colab.research.google.com/notebooks/welcome.ipynb

 

Welcome To Colab

Run, share, and edit Python notebooks

colab.research.google.com

 

실행 단축키: Cmd + Enter (Ctrl + Enter)

 

 

python

list

: 순서(인덱스)가 있는 데이터들의 모음집

 

선언과 할당

a_list = [1, 2, 3, 4, 5]
b_list = [1, 2, "10", [3]]  # 다양한 자료형이 하나의 리스트에 할당될 수 있다

 

 

dictionary

: key-value 쌍으로 이루어진 데이터 모음집

 

선언과 할당

김철수 = {'height': 183, 'weight': 68, ... }

 

사용

print(김철수['height'])  # 183

 

 

Pandas와 matplotlib를 이용해 데이터 분석하기

다시 타이타닉 생존자 데이터를 분석해보자

 

Pandas

: 데이터 분석 기본 세팅 (클렌징) + 데이터 분석에 사용하는 라이브러리

 

데이터 분석 기본 세팅하기

1) Pandas 라이브러리 사용 선언

import pandas as pd

pandas 라이브러리를 pd로 임포트

 

2) 데이터 가져오기

colab 좌측 메뉴바 파일 아이콘 > 세션 저장소에 업로드 눌러 분석할 파일 업로드

 

3) 데이터 확인 및 표 읽기

import pandas as pd
titanic = pd.read_table('train.csv', sep=',')  # train.csv는 읽어올 파일경로

 

엑셀 파일 읽어오는 법

titanic = pd.read_excel('파일이름.xlsx', engine='openpyxl')

 

파일 내 데이터를 확인하기

titanic.head()  # 5개 데이터 출력
titanic.head(100)  # 100개 데이터 출력

 

 

4) 공백란 제거하기

print(titanic.isnull().sum())  # null 데이터 파악하기

null인 데이터의 합계를 확인해보니 Age에서 177개의 null값 확인

 

titanic = titanic.dropna()

null값을 제거한 데이터를 다시 titanic에 할당

 

 

분석하기

- pearson 방법론을 사용해 분석하고, 그 결과를 corr이라는 변수에 저장

corr = titanic.corr(method='pearson')

 

- survived와 상관관계가 1인 것은 제외 (survived가 survived와 1이기 때문에..)

corr = corr[corr.Survived != 1]

 

 

matplotlib로 시각화하기

1) matplotlib 사용 선언하기

import matplotlib.pyplot as plt

 

2) 그래프 그리기

corr['Survived'].plot()

3) 그래프로 사용할 부분만 남기기

PassengerId는 승객을 구분하기 위한 아이디일 뿐, 생존률과 관계가 없을 것

제거해보자!

 

corr = corr.drop(['PassengerId'], axis = 'rows')

 

4) 원하는 그래프로 변경하기

막대그래프 형태로 보려면?

corr['Survived'].plot.bar()

 

=> 결론! 생존률과 가장 상관관계가 높은 것은 성별이다

성별 > 좌석 클래스 > 지불 비용

'데이터분석' 카테고리의 다른 글

피마 인디언 당뇨병 분석  (0) 2024.12.20
데이터 분석의 기본 구조  (0) 2024.12.18