본문 바로가기
파이썬 독학 (나도코딩)/Pandas

주피터 노트북 Pandas (나도코딩) 2

by Mecodata 2022. 7. 10.

파일 저장 및 열기

- df.to_파일형식 = 지정한 파일 형식으로 파일 저장(csv, txt, excel)

- 저장 시 한글이 깨질 경우에는 df.to('파일명.파일형식', encoding='utf-8-sig' ) 필수!

- txt 파일로 저장하거나 txt 파일을 열 경우에는 보기 편하기 위해 sep='\t' 적용

- df1 = pd.read_파일형식('파일명.파일형식') = 해당 파일 열기

- 파일을 열때

  skiprow : 지정된 갯수만큼의 row 건너뜀,

  nrow : 지정된 갯수 만큼의 row만 가져옴

  index_col : 해당 column을 index로 변경

DataFrame 확인 함수

- describe = 계산 가능한 데이터에 대해 Column별로 데이터의 갯수, 평균, 표준편차, 최소/최대값 등을 출력

- info = 가져온 데이터에 대한 정보 출력

- head : 오름차순으로 적용한 숫자만큼의 행 출력 (빈칸일 경우에는 5가 적용)

- tail : 내림차순으로 적용한 숫자만큼의 행 출력 (빈칸일 경우에는 5가 적용, head와는 반대개념)

- min = 최솟값, max = 최대값, nlargest = 제일 큰 순서대로 출력, mean = 평균, sum = 총합

- count = 특정조건에 해당하는 데이터의 수

- unique = 중복을 제외한 데이터 출력, nunique = 중복을 제외한 데이터의 수 출력

 

딕셔너리와 같은 방식으로 DataFrame도 column:value 방식으로 데이터 출력 가능 및 슬라이싱 적용 가능

loc와 iloc

- loc = 이름(문자열 데이터)을 이용하여 원하는 row에서 원하는 column 선택

ex) df.loc['1번'] = index '1번'에 해당하는 전체 데이터 출력

      df.loc['1번', '국어'] = index '1번'의 '국어'에 해당하는 전체 데이터 출력

- iloc = 위치(정수 데이터)를 이용하여 원하는 row에서 원하는 column 선택 (슬라이싱 적용)

ex) df.iloc[1, 2] = 1행 2열의 데이터, df.iloc[[0, 1], 2] = 0행과 1행의 2열 데이터     

      df.iloc[[0, 1], [2, 3]] = 0행과 1행의 2,3열 데이터, df.iloc[0:2, 2:5] = 0~1행의 2~4열 데이터

조건문

- 파이썬과 다르게 if문이나 for문 사용 X

- 비교연산자(<,>,<=,>=,==,!=)를 통해 True/False 결과값 도출

- ~ = not -> ~True = False

- str 함수들을 통해 특정 텍스트에 대한 조건 제시 가능 (특정 문자 포함 = str.contains)

- 논리연산자 &,| 도 사용가능

결측치(비어 있는 데이터 - NaN)

- fillna = 특정 텍스트로 NaN 데이터 설정

ex) fillna('없음') = NaN 데이터 모두를 '없음' 텍스트로 변경

- np = 해당 데이터 전체를 NaN으로 변경

- dropna = 전체 데이터 중에서 NaN을 포함하는 데이터 삭제

- dropna 소괄호() 안에서 데이터의 범위를 axis를 통해 행 혹은 열로 지정할 수 있음 (index, columns)

- dropna 소괄호() 안에서 데이터의 범위를 how를 통해 데이터의 한 부분에서라도 NaN이 있으면 삭제시킬지 모든 데이터가 NaN이어야 삭제시킬지 지정 가능 (any, all)

댓글