- 빅데이터 정의(3V) = Volume(양), Velocity(속도), Variety(다양성)
- 실시간 = 리얼타임, 일괄처리 = 배치처리
※ Batch = 컴퓨터의 데이터 처리 형태의 하나로 처리해야 할 데이터를 일정 기간 또는 일정량 정리하여 처리하는 것
- XML(extensible markup language) = 데이터를 표현하고 교환하기 위해 만든 프로그램 (반정형 데이터)
- HTML(Hypertext Markup Language) = 홈페이지 프로그래밍 언어
- 대부분의 프로그래밍 언어는 C(절차적 언어) 기반
- 프로그래밍 언어 유행 = C -> C++ (객체지향이 추가) -> Java -> Python (C++ 기반)
- int(4byte=32bit) = -2^16 ~ 2^16-1, double(8byte), char(문자, 1byte) = 아스키코드 이용
- Java = 컴파일 방식(전체 코드를 한번에 실행), Python = 인터프리터 방식(한줄씩 바로바로 실행 가능)
- NoSQL, Hadoop, MongoDB = 비정형 데이터
- key 기반, column 기반, graph 기반, document 기반 (MongoDB)
- 가상현실 = 인위적으로 만든 가짜 세계(ex-온라인 게임), 증강현실 = 가상과 현실이 뒤섞인 세계(ex-포켓몬고),
메타버스 = 현실과 같은 사회&문화&경제활동들이 이뤄지는 가상세계
- NoSQL = 관계형 데이터 모델을 사용하지 않는 데이터베이스0.
- Spark(파일처리, SQL, 딥러닝, 시각화 모두 가능)
※ 클라우드의 유형
- Paas(Platform as a service) = 소프트웨어 서비스를 개발할 때 필요한 플랫폼을 제공하는 서비스
- Iaas(Infrastructure as a service) = 인터넷을 통해 서버와 스토리지 등 데이터센터 자원을 빌려 쓸 수 있는 서비스
- Saas(Software as a service) = 클라우드 환경에서 운영되는 애플리케이션 서비스 (ex-N drive)
RDB(Relational Database)
- 관계형 데이터베이스 (정형 데이터)
- 데이터베이스에서 가장 많이 사용되는 방식
- 엑셀 시트와 같이 정해진 번호의 칸 안에 내용을 차곡차곡 쌓아 나가는 방식
- 내용을 찾아 정렬하는 속도가 매우 빠름
- 대표적인 RDB = Oracle(대기업이 많이 사용), MYSQL(오라클이 배포, 오픈소스 기반이라 가격이 저렴)
- 이외에도 MSSQL(window만 사용가능, 유료), Maria DB(Oracle과의 합병과정에서 일부 mysql 직원들이 새로 만듦)
빅데이터 수집 기술
- Sqoop = RDBMS과 같은 정형 데이터를 빅데이터 저장 도구인 Hadoop에 저장 하는 데이터 수집 도구
- Flume = 서버에서 발생하는 로그를 수집하여 빅데이터 저장도구인 Hadoop에 저장하는 데이터 수집 도구
빅데이터 저장 기술
- OS가 다르면 저장 방식도 다름 (Window - NTFS, Linux - EXT)
- Hadoop(Java 기반)
- HDFS(하둡 분산 파일 시스템)
- NoSQL (NoSQL에서 Sharding = 분산(Distribution)과 같음)
빅데이터 처리 기술
- MapReduce(Java 기반)
- Pig(인터프리터 방식)
- HIVE(Pig와 SQL을 호환하기 위해 만든거라 SQL과 비슷)
- Spark
빅데이터 분석 및 시각화 기술
- 분류 분석(지도,KNN), 군집 분석(비지도,K-means), 회귀 분석(Regression), 시계열 분석(시간에 영향 받는 데이터,LSTM), 상관관계 분석
- 분석 및 시각화로 R과 Python을 주로 사용
'빅데이터 부트캠프 > Linux' 카테고리의 다른 글
빅데이터 부트캠프 32일차 (0) | 2022.08.18 |
---|---|
빅데이터 부트캠프 31일차 (1) | 2022.08.17 |
댓글