빅데이터 부트캠프 43일차

- 분산 환경에서 대량의 스트리밍 데이터(로그 데이터 등)를 효율적으로 수집하는 Java 기반 오픈소스

※ 로그 데이터(Log Data) = 서버에서 이루어지는 모든 작업에 대한 정보를 담고 있는 데이터

- 외부 이벤트 발생시, 해당 데이터를 수집하여 Agent를 통해 원하는 저장소로 전송해줌

- 빅데이터를 서버 컴퓨터에서 온전히 감당하기에는 무리가 있기 때문에 Flume을 통하여 데이터를 실시간으로 대용량 저장소로 전송하는 것이 주 목적

- 하나의 Agent는 Source, Channel, Sink로 구성

- Source = 웹 서버로부터 로그 데이터 수집(출입문)

- Channel = Source에서 받은 로그 데이터를 Sink로 전달하는 통로,

- Sink = HDFS로 로그 데이터 전달 (나가는 문) or 저장

- 실시간성과 여러개의 Agent를 사용할 수 있다는 장점

- 많은 양의 로그 데이터를 여러 개의 Agent에 분산하여 각각의 Agent를 거친 데이터들이 다른 하나의 Agent에 수집되어 HDFS 같은 대용량 저장소로 전송

- 많은 양의 로그 데이터를 Agen가 수집하면 원할한 속도를 위하여 여러개의 Agent들을 직렬적으로 연결하여 마지막 Agent가 로그 데이터 전송

- 멀티플렉서 정의를 하면 채널-싱크가 복사되어 각각 원하는 저장소로 데이터를 전송할 수 있음

To the big data of media