Pig 명령어 2
- SUBTRACT(A,B) = 릴레이션 A의 데이터를 반환하는데 B와 같은 것이 있는것은 null로 변환하여 반환 (차집합)
- SUM = 지정한 속성의 합계 반환
- IN = 데이터의 속성과 조건을 입력하여 해당 속성에서 조건을 만족하는 데이터만 반환
- TOKENIZE = 지정한 문자열 기준(기본값은 빈칸)으로 각각의 문자열 데이터들을 분리하여 반환 (PigStorage와 유사)
- TextLoader = 속성의 이름과 데이터 타입을 지정하지 않고 데이터 출력 (스키마 존재 X)
- TOP(출력할 개수, 기준 속성, 적용할 릴레이션) = 지정한 속성을 기준으로 상위 데이터를 지정한 개수만큼 출력
(Top을 사용하기 위해서는 릴레이션을 사전에 그룹화를 해야함)
- TOMAP(속성1,속성2) = 지정한 속성1과 속성2를 key(속성1)#value(속성2)로 설정하여 반환 (데이터를 MAP화)
Pig 문자열 명령어
- ENDSWITH(속성,문자열) = 지정한 문자열로 끝나는 데이터인지 True/False로 반환
- STARTSWITH(속성,문자열) = 지정한 문자열로 시작하는 데이터인지 True/False로 반환
- SUBSTRING(속성,시작인덱스,끝 인덱스) = 문자열 데이터에서 시작인덱스부터 끝 인덱스-1에 해당하는 문자열을 반환
- EqualsIgnoreCase(속성,문자열) = 지정한 문자열 데이터과 일치하는 문자열 데이터가 있는지 True/False로 반환
- INDEXOF(속성,문자,시작 인덱스) = 시작 인덱스 이후로 지정한 문자열이 있는 인덱스 번호 반환
(중복된 문자일 경우 가장 첫번째 문자의 인덱스 번호를 반환)
- LAST_INDEX_OF (속성,문자) = 지정한 문자가 있는 인덱스 번호 반환
(중복된 문자일 경우 가장 마지막 문자의 인덱스 번호를 반환, INDEXOF의 반대)
- LCFIRST = 주어진 문자열의 첫 번째 문자를 소문자로 변환
- UCFIRST = 주어진 문자열의 첫 번째 문자를 대문자로 변환
- LOWER, UPPER, REPLACE = 파이썬에서와 같은 기능
- TRIM, LTRIM, RTRIM = 파이썬에서의 strip, lstrip, rstrip과 같은 기능
- STRSPLIT = PigStorage와 같은 기능 (문자열 분리)
※ LOAD 명령시에는 PigStorage를 사용하고, FOREACH A GENERATE 명령 사용시에는 STRSPLIT 사용
Pig 날짜 명령어
- CurrentTime = 파이썬의 today와 같이 현재 날짜, 시간 반환
- AddDuration = 지정한 날짜 데이터에 덧셈
- SubtractDuration = 지정한 날짜 데이터에 뺄셈
※ 어떻게 계산할지 적용 형식 "P3Y6M4DT12H30M5S" = 3년 6개월 4일 12시간 30분 5초 (P=period, T=time)
- GetDay = DateTime 데이터에서 일 반환
- DayBetween = 두 DateTime 데이터 사이의 일 차이를 반환
(Day 대신 Year, Week, Month, Hour, Minute, Second, Millisecond를 입력하여 각 시간대 반환 가능)
Pig 수학 관련 명령어
- ABS, EXP, SQRT 등 파이썬의 numpy의 메서드들처럼 수학 관련 메서드 사용 가능
'빅데이터 부트캠프 > Hadoop' 카테고리의 다른 글
빅데이터 부트캠프 45일차 (0) | 2022.09.06 |
---|---|
빅데이터 부트캠프 43일차 (0) | 2022.09.02 |
빅데이터 부트캠프 40일차 (0) | 2022.08.30 |
빅데이터 부트캠프 39일차 (Hadoop) (0) | 2022.08.29 |
빅데이터 부트캠프 38일차 (Hadoop) (0) | 2022.08.26 |
댓글