빅데이터 부트캠프 38일차 (Hadoop)

- Hadoop은 기본적으로 명령어 입력 시 hadoop fs를 먼저 입력

- hadoop fs을 입력하지 않고 명령어를 입력하면 Hadoop이 아닌 Linux에 명령을 실행하는 것

- hadoop fs -ls = 홈 디렉터리 조회

- hadoop fs -ls -R / | grep test = 하위 디렉토리를 포함해서 test라는 문자가 파일명에 속한 파일들 목록 출력

- hadoop fs -mkdir = 디렉터리 생성

- hadoop fs -rm = 파일 삭제

- hadoop fs -put [복사할 파일이 있는 경로(리눅스)] [복사하여 붙여넣기할 경로(하둡)]

= 리눅스에 있는 해당 파일을 hadoop의 지정 파일에 복사

- hadoop fs -get [복사할 파일이 있는 경로(하둡)] [복사하여 붙여넣기할 경로(리눅스)]

= hadoop에 있는 해당 파일을 리눅스의 지정 파일에 복사 (-put의 반대)

- hadoop fs -D dfs.block.size=10 -put a.csv b.csv

= 로컬에서 a.csv를 불러 블럭 크기 10으로 지정하고 하둡에 b.csv로 저장

- hadoop fs fsck = 해당 파일의 블록 개수 조회

- hadoop fs fsck / -files -blocks = 블록 개수들과 블록 각각의 ID를 출력

- hadoop fs -cat = 지정한 파일 내용 출력

- hadoop fs -touchz 파일명 = 크기가 0인 파일 생성

- hadoop fs -appendToFile [추가할 내용이 담긴 파일(a)의 경로(리눅스)] [내용을 추가시킬 파일(b)의 경로(하둡)]

= 리눅스에 있는 a의 내용을 하둡에 있는 b의 맨마지막에 뒤이어 추가후 b를 저장

- hadoop fs -count = 지정한 파일 경로에 있는 [디렉터리 개수, 파일 개수, 파일 전체 용량]을 출력

- hadoop fs -find = 파일 찾기

- 윈도우에서 Hadoop으로 파일을 전송할 때는 Linux를 거쳐서 전송해야 함

- 윈도우에서 Linux로 파일을 전송할 때는 cmd 창에서 scp 명령어를 사용

- -P 설정으로 포트번호를 추가적으로 입력하여 파일을 전송해야 정확도가 좋음

- scp -P [포트번호] [윈도우에서 전송할 파일 경로] [리눅스id]@[리눅스ip]:[리눅스로 보낼 파일 경로]

(윈도우->Linux)

- hadoop fs -put [리눅스에서의 파일 경로] [하둡에서의 파일 경로] (Linux->Hadoop)

- hadoop fs -get [하둡에서의 파일 경로] [리눅스에서의 파일 경로] (Hadoop->Linux)

- scp -P [포트번호] [리눅스id]@[리눅스ip]:[리눅스로 보낼 파일 경로] [윈도우에서 전송할 파일 경로]

(Linux->윈도우)

※ scp = Secure Copy Protocol

To the big data of media