파일 저장 및 열기
- df.to_파일형식 = 지정한 파일 형식으로 파일 저장(csv, txt, excel)
- 저장 시 한글이 깨질 경우에는 df.to('파일명.파일형식', encoding='utf-8-sig' ) 필수!
- txt 파일로 저장하거나 txt 파일을 열 경우에는 보기 편하기 위해 sep='\t' 적용
- df1 = pd.read_파일형식('파일명.파일형식') = 해당 파일 열기
- 파일을 열때
skiprow : 지정된 갯수만큼의 row 건너뜀,
nrow : 지정된 갯수 만큼의 row만 가져옴
index_col : 해당 column을 index로 변경
DataFrame 확인 함수
- describe = 계산 가능한 데이터에 대해 Column별로 데이터의 갯수, 평균, 표준편차, 최소/최대값 등을 출력
- info = 가져온 데이터에 대한 정보 출력
- head : 오름차순으로 적용한 숫자만큼의 행 출력 (빈칸일 경우에는 5가 적용)
- tail : 내림차순으로 적용한 숫자만큼의 행 출력 (빈칸일 경우에는 5가 적용, head와는 반대개념)
- min = 최솟값, max = 최대값, nlargest = 제일 큰 순서대로 출력, mean = 평균, sum = 총합
- count = 특정조건에 해당하는 데이터의 수
- unique = 중복을 제외한 데이터 출력, nunique = 중복을 제외한 데이터의 수 출력
※ 딕셔너리와 같은 방식으로 DataFrame도 column:value 방식으로 데이터 출력 가능 및 슬라이싱 적용 가능
loc와 iloc
- loc = 이름(문자열 데이터)을 이용하여 원하는 row에서 원하는 column 선택
ex) df.loc['1번'] = index '1번'에 해당하는 전체 데이터 출력
df.loc['1번', '국어'] = index '1번'의 '국어'에 해당하는 전체 데이터 출력
- iloc = 위치(정수 데이터)를 이용하여 원하는 row에서 원하는 column 선택 (슬라이싱 적용)
ex) df.iloc[1, 2] = 1행 2열의 데이터, df.iloc[[0, 1], 2] = 0행과 1행의 2열 데이터
df.iloc[[0, 1], [2, 3]] = 0행과 1행의 2,3열 데이터, df.iloc[0:2, 2:5] = 0~1행의 2~4열 데이터
조건문
- 파이썬과 다르게 if문이나 for문 사용 X
- 비교연산자(<,>,<=,>=,==,!=)를 통해 True/False 결과값 도출
- ~ = not -> ~True = False
- str 함수들을 통해 특정 텍스트에 대한 조건 제시 가능 (특정 문자 포함 = str.contains)
- 논리연산자 &,| 도 사용가능
결측치(비어 있는 데이터 - NaN)
- fillna = 특정 텍스트로 NaN 데이터 설정
ex) fillna('없음') = NaN 데이터 모두를 '없음' 텍스트로 변경
- np = 해당 데이터 전체를 NaN으로 변경
- dropna = 전체 데이터 중에서 NaN을 포함하는 데이터 삭제
- dropna 소괄호() 안에서 데이터의 범위를 axis를 통해 행 혹은 열로 지정할 수 있음 (index, columns)
- dropna 소괄호() 안에서 데이터의 범위를 how를 통해 데이터의 한 부분에서라도 NaN이 있으면 삭제시킬지 모든 데이터가 NaN이어야 삭제시킬지 지정 가능 (any, all)
'파이썬 독학 (나도코딩) > Pandas' 카테고리의 다른 글
| 주피터 노트북 pandas (나도코딩) 3 (0) | 2022.07.11 |
|---|---|
| 주피터 노트북 Pandas (나도코딩) 1 (0) | 2022.07.10 |
| 주피터 노트북 연습 (0) | 2022.05.23 |
댓글