3-1 대규모 분산 처리의 프레임워크 구조화 데이터 vs 비 구조화 데이터 구조화 데이터 SQL로 데이터 집계할때 명확히 정해진 스키마가 있음 비구조화 데이터 이미지, 동영상 등 정해진게 없는 데이터 스키마리스 데이터 기본 서식은 있지만 스키마 정의가 안됨 ex) CSV, JSON, XML등 데이터 구조화의 파이프라인 열 지향 스토리지에선 팩트 테이블과 디멘전 테이블로 나뉜다. 팩트 테이블 시간에 따라 증가하는 데이터 디멘전 테이블 그에 따른 부속 데이터 비 구조화 데이터를 열 지향 스토리지로 변환하는 과정 데이터의 가공 및 압축을 위해 많은 컴퓨터 리소스를 사용 분산 처리 프레임워크중 Hadoop과 Spark가 있다. Hadoop 분산 데이터 처리의 공통 플랫폼 단일 소프트웨어가 아닌 분산 시스템을 구..