정의
- 파이썬에서 사용하는 데이터 분석 라이브러리 중 하나이며 파이썬으로 작성된 데이터를 분석 및 조작하기 위해 사용
- 주로 import pandas as pd로 적용하여 pd로 사용
- 함수 입력시 PascalCase로 입력
Series
- 1차원 데이터 (정수. 실수, 문자열 등)
- A = pd.Series([]) 꼴로 리스트 형식의 데이터 객체 생성
- A = pd.Series([1, 2, 3], index=['ㄱ','ㄴ','ㄷ']) 꼴로 각 데이터에 인덱스를 지정하여 데이터를 생성할 수 있음
- dic의 key:value와 같은 방식으로 index:value라 생각하면 편리
ex) A 출력시
ㄱ 1
ㄴ 2
ㄷ 3
DataFrame 기초
- 2차원 데이터로 Series들의 모음
- DataFrame을 만들때 사용되는 데이터는 딕셔너리 타입 {key:value}
- data = {'음식' : ['밥','찌개'], '음료' : ['사이다','콜라'}, df = pd.DataFrame(data) 꼴로 데이터 객체 생성
- DataFrame이 생성될때 딕셔너리의 key -> DataFrame의 column
- dic의 key:value와 같은 방식으로 column:value라 생각하면 편리
- 다만, DataFrame은 2차원 데이터로 각 value에 index가 적용되어 함께 출력됨
- ex) data['음식'] = ['밥','찌개']
df['음식'] = 0 '밥' 1 '찌개'
- df = pd.DataFrame(data, index=['1번','2번']) 꼴로 index를 지정할 수 있음
- ex) df['음식'] = 1번 '밥'
2번 '찌개'
- df = pd.DataFrame(data, column=['음료'])로 필요한 column만을 출력할 수 있음
- ex) df['음식'] = 1번 '사이다'
2번 '콜라'
- df = pd.DataFrame(data, column=['음료', '밥'])로 출력시 column의 순서를 바꿔 출력할 수 있음
Index 설정
- df.index.name = index 이름 설정
- df.set_index() = 지정한 column을 index로 설정
- df.reset_index() = index 초기화 (만약 column 중 하나가 index로 바뀐 상태였으면 다시 column으로 변환됨)
- drop=True : 해당 명령을 실제 데이터에는 반영하지 않고 결과값만 출력
- inplace=True : 해당 명령을 실제 데이터에 반영하는 동시에 결과값 출력
'파이썬 독학 (나도코딩) > Pandas' 카테고리의 다른 글
주피터 노트북 pandas (나도코딩) 3 (0) | 2022.07.11 |
---|---|
주피터 노트북 Pandas (나도코딩) 2 (0) | 2022.07.10 |
주피터 노트북 연습 (0) | 2022.05.23 |
댓글