본문 바로가기
파이썬 독학 (나도코딩)/Pandas

주피터 노트북 Pandas (나도코딩) 1

by Mecodata 2022. 7. 10.

정의

- 파이썬에서 사용하는 데이터 분석 라이브러리 중 하나이며 파이썬으로 작성된 데이터를 분석 및 조작하기 위해 사용

- 주로 import pandas as pd로 적용하여 pd로 사용

- 함수 입력시 PascalCase로 입력

Series

- 1차원 데이터 (정수. 실수, 문자열 등)

- A = pd.Series([]) 꼴로 리스트 형식의 데이터 객체 생성

- A = pd.Series([1, 2, 3], index=['ㄱ','ㄴ','ㄷ']) 꼴로 각 데이터에 인덱스를 지정하여 데이터를 생성할 수 있음

- dic의 key:value와 같은 방식으로 index:value라 생각하면 편리 

ex) A 출력시 

ㄱ  1

ㄴ  2

ㄷ  3

DataFrame 기초

- 2차원 데이터로 Series들의 모음

- DataFrame을 만들때 사용되는 데이터는 딕셔너리 타입 {key:value}

- data = {'음식' : ['밥','찌개'], '음료' : ['사이다','콜라'}, df = pd.DataFrame(data) 꼴로 데이터 객체 생성

- DataFrame이 생성될때 딕셔너리의 key -> DataFrame의 column

- dic의 key:value와 같은 방식으로 column:value라 생각하면 편리

- 다만, DataFrame은 2차원 데이터로 각 value에 index가 적용되어 함께 출력됨

- ex) data['음식'] = ['밥','찌개']

        df['음식'] = 0  '밥'                          1  '찌개'

- df = pd.DataFrame(data, index=['1번','2번']) 꼴로 index를 지정할 수 있음

- ex) df['음식'] = 1번  '밥'

                          2번  '찌개'

- df = pd.DataFrame(data, column=['음료'])로 필요한 column만을 출력할 수 있음

- ex) df['음식'] = 1번  '사이다'

                          2번  '콜라'

- df = pd.DataFrame(data, column=['음료', '밥'])로 출력시 column의 순서를 바꿔 출력할 수 있음

 

Index 설정

- df.index.name = index 이름 설정

- df.set_index() = 지정한 column을 index로 설정

- df.reset_index() = index 초기화 (만약 column 중 하나가 index로 바뀐 상태였으면 다시 column으로 변환됨)

- drop=True : 해당 명령을 실제 데이터에는 반영하지 않고 결과값만 출력

- inplace=True : 해당 명령을 실제 데이터에 반영하는 동시에 결과값 출력

댓글