본문 바로가기
빅데이터 부트캠프/Linux

빅데이터 부트캠프 30일차

by Mecodata 2022. 8. 16.

- 빅데이터 정의(3V) = Volume(양), Velocity(속도), Variety(다양성)

- 실시간 = 리얼타임, 일괄처리 = 배치처리

※ Batch = 컴퓨터의 데이터 처리 형태의 하나로 처리해야 할 데이터를 일정 기간 또는 일정량 정리하여 처리하는 것

 

- XML(extensible markup language) = 데이터를 표현하고 교환하기 위해 만든 프로그램 (반정형 데이터)

- HTML(Hypertext Markup Language) = 홈페이지 프로그래밍 언어

 

- 대부분의 프로그래밍 언어는 C(절차적 언어) 기반

- 프로그래밍 언어 유행 = C -> C++ (객체지향이 추가) -> Java -> Python (C++ 기반)

 

- int(4byte=32bit) = -2^16 ~ 2^16-1, double(8byte), char(문자, 1byte) = 아스키코드 이용

- Java = 컴파일 방식(전체 코드를 한번에 실행), Python = 인터프리터 방식(한줄씩 바로바로 실행 가능)

 

- NoSQL, Hadoop, MongoDB = 비정형 데이터

- key 기반, column 기반, graph 기반, document 기반 (MongoDB)

 

- 가상현실 = 인위적으로 만든 가짜 세계(ex-온라인 게임), 증강현실 = 가상과 현실이 뒤섞인 세계(ex-포켓몬고),

  메타버스 = 현실과 같은 사회&문화&경제활동들이 이뤄지는 가상세계

 

- NoSQL = 관계형 데이터 모델을 사용하지 않는 데이터베이스0.

- Spark(파일처리, SQL, 딥러닝, 시각화 모두 가능)

 

※ 클라우드의 유형

- Paas(Platform as a service) = 소프트웨어 서비스를 개발할 때 필요한 플랫폼을 제공하는 서비스

- Iaas(Infrastructure as a service) = 인터넷을 통해 서버와 스토리지 등 데이터센터 자원을 빌려 쓸 수 있는 서비스

- Saas(Software as a service) = 클라우드 환경에서 운영되는 애플리케이션 서비스 (ex-N drive)

 

 

RDB(Relational Database)

- 관계형 데이터베이스 (정형 데이터)

- 데이터베이스에서 가장 많이 사용되는 방식
- 엑셀 시트와 같이 정해진 번호의 칸 안에 내용을 차곡차곡 쌓아 나가는 방식
- 내용을 찾아 정렬하는 속도가 매우 빠름

- 대표적인 RDB = Oracle(대기업이 많이 사용), MYSQL(오라클이 배포, 오픈소스 기반이라 가격이 저렴)

- 이외에도 MSSQL(window만 사용가능, 유료), Maria DB(Oracle과의 합병과정에서 일부 mysql 직원들이 새로 만듦)

 

 

빅데이터 수집 기술

- Sqoop = RDBMS과 같은 정형 데이터를 빅데이터 저장 도구인 Hadoop에 저장 하는 데이터 수집 도구

- Flume = 서버에서 발생하는 로그를 수집하여 빅데이터 저장도구인 Hadoop에 저장하는 데이터 수집 도구

 

 

빅데이터 저장 기술

- OS가 다르면 저장 방식도 다름 (Window - NTFS, Linux - EXT)

- Hadoop(Java 기반)

- HDFS(하둡 분산 파일 시스템) 

- NoSQL (NoSQL에서 Sharding = 분산(Distribution)과 같음)

 

 

빅데이터 처리 기술

- MapReduce(Java 기반) 

- Pig(인터프리터 방식)  

- HIVE(Pig와 SQL을 호환하기 위해 만든거라 SQL과 비슷)

- Spark

 

 

빅데이터 분석 및 시각화 기술

- 분류 분석(지도,KNN), 군집 분석(비지도,K-means), 회귀 분석(Regression), 시계열 분석(시간에 영향 받는 데이터,LSTM), 상관관계 분석

- 분석 및 시각화로 R과 Python을 주로 사용

'빅데이터 부트캠프 > Linux' 카테고리의 다른 글

빅데이터 부트캠프 32일차  (0) 2022.08.18
빅데이터 부트캠프 31일차  (1) 2022.08.17

댓글