본문 바로가기
빅데이터 부트캠프/Hadoop

빅데이터 부트캠프 41일차

by Mecodata 2022. 8. 31.

Pig 명령어 2

- SUBTRACT(A,B) = 릴레이션 A의 데이터를 반환하는데 B와 같은 것이 있는것은 null로 변환하여 반환 (차집합)

SUM = 지정한 속성의 합계 반환

- IN = 데이터의 속성과 조건을 입력하여 해당 속성에서 조건을 만족하는 데이터만 반환  

- TOKENIZE = 지정한 문자열 기준(기본값은 빈칸)으로 각각의 문자열 데이터들을 분리하여 반환 (PigStorage와 유사)

- TextLoader = 속성의 이름과 데이터 타입을 지정하지 않고 데이터 출력 (스키마 존재 X)

- TOP(출력할 개수, 기준 속성, 적용할 릴레이션) = 지정한 속성을 기준으로 상위 데이터를 지정한 개수만큼 출력

  (Top을 사용하기 위해서는 릴레이션을 사전에 그룹화를 해야함)

- TOMAP(속성1,속성2) = 지정한 속성1과 속성2를 key(속성1)#value(속성2)로 설정하여 반환 (데이터를 MAP화)

 

Pig 문자열 명령어 

- ENDSWITH(속성,문자열) = 지정한 문자열로 끝나는 데이터인지 True/False로 반환  

- STARTSWITH(속성,문자열) = 지정한 문자열로 시작하는 데이터인지 True/False로 반환

- SUBSTRING(속성,시작인덱스,끝 인덱스) = 문자열 데이터에서 시작인덱스부터 끝 인덱스-1에 해당하는 문자열을 반환

- EqualsIgnoreCase(속성,문자열) = 지정한 문자열 데이터과 일치하는 문자열 데이터가 있는지 True/False로 반환

- INDEXOF(속성,문자,시작 인덱스) = 시작 인덱스 이후로 지정한 문자열이 있는 인덱스 번호 반환

  (중복된 문자일 경우 가장 첫번째 문자의 인덱스 번호를 반환)

- LAST_INDEX_OF (속성,문자) = 지정한 문자가 있는 인덱스 번호 반환

  (중복된 문자일 경우 가장 마지막 문자의 인덱스 번호를 반환, INDEXOF의 반대)

- LCFIRST = 주어진 문자열의 첫 번째 문자를 소문자로 변환

- UCFIRST = 주어진 문자열의 첫 번째 문자를 대문자로 변환

- LOWER, UPPER, REPLACE = 파이썬에서와 같은 기능

- TRIM, LTRIM, RTRIM = 파이썬에서의 strip, lstrip, rstrip과 같은 기능

- STRSPLIT = PigStorage와 같은 기능 (문자열 분리)

LOAD 명령시에는 PigStorage를 사용하고, FOREACH A GENERATE 명령 사용시에는 STRSPLIT 사용

 

Pig 날짜 명령어 

- CurrentTime = 파이썬의 today와 같이 현재 날짜, 시간 반환

- AddDuration = 지정한 날짜 데이터에 덧셈 

- SubtractDuration = 지정한 날짜 데이터에 뺄셈

※ 어떻게 계산할지 적용 형식 "P3Y6M4DT12H30M5S" = 3년 6개월 4일 12시간 30분 5초 (P=period, T=time)

- GetDay =  DateTime 데이터에서  반환

- DayBetween = 두 DateTime 데이터 사이의 일 차이를 반환

 (Day 대신 Year, Week, Month, Hour, Minute, Second, Millisecond를 입력하여 각 시간대 반환 가능)

 

Pig 수학 관련 명령어 

- ABS, EXP, SQRT 등 파이썬의 numpy의 메서드들처럼 수학 관련 메서드 사용 가능

댓글