Flume
- 분산 환경에서 대량의 스트리밍 데이터(로그 데이터 등)를 효율적으로 수집하는 Java 기반 오픈소스
※ 로그 데이터(Log Data) = 서버에서 이루어지는 모든 작업에 대한 정보를 담고 있는 데이터
- 외부 이벤트 발생시, 해당 데이터를 수집하여 Agent를 통해 원하는 저장소로 전송해줌
- 빅데이터를 서버 컴퓨터에서 온전히 감당하기에는 무리가 있기 때문에 Flume을 통하여 데이터를 실시간으로 대용량 저장소로 전송하는 것이 주 목적
- 하나의 Agent는 Source, Channel, Sink로 구성
- Source = 웹 서버로부터 로그 데이터 수집(출입문)
- Channel = Source에서 받은 로그 데이터를 Sink로 전달하는 통로,
- Sink = HDFS로 로그 데이터 전달 (나가는 문) or 저장
- 실시간성과 여러개의 Agent를 사용할 수 있다는 장점
- 많은 양의 로그 데이터를 여러 개의 Agent에 분산하여 각각의 Agent를 거친 데이터들이 다른 하나의 Agent에 수집되어 HDFS 같은 대용량 저장소로 전송
- 많은 양의 로그 데이터를 Agen가 수집하면 원할한 속도를 위하여 여러개의 Agent들을 직렬적으로 연결하여 마지막 Agent가 로그 데이터 전송
- 멀티플렉서 정의를 하면 채널-싱크가 복사되어 각각 원하는 저장소로 데이터를 전송할 수 있음
'빅데이터 부트캠프 > Hadoop' 카테고리의 다른 글
빅데이터 부트캠프 55일차 (0) | 2022.09.22 |
---|---|
빅데이터 부트캠프 45일차 (0) | 2022.09.06 |
빅데이터 부트캠프 41일차 (0) | 2022.08.31 |
빅데이터 부트캠프 40일차 (0) | 2022.08.30 |
빅데이터 부트캠프 39일차 (Hadoop) (0) | 2022.08.29 |
댓글