개발/Data 4

[빅데이터를 지탱하는 기술] 빅데이터 입문기 #4

3-1 대규모 분산 처리의 프레임워크 구조화 데이터 vs 비 구조화 데이터 구조화 데이터 SQL로 데이터 집계할때 명확히 정해진 스키마가 있음 비구조화 데이터 이미지, 동영상 등 정해진게 없는 데이터 스키마리스 데이터 기본 서식은 있지만 스키마 정의가 안됨 ex) CSV, JSON, XML등 데이터 구조화의 파이프라인 열 지향 스토리지에선 팩트 테이블과 디멘전 테이블로 나뉜다. 팩트 테이블 시간에 따라 증가하는 데이터 디멘전 테이블 그에 따른 부속 데이터 비 구조화 데이터를 열 지향 스토리지로 변환하는 과정 데이터의 가공 및 압축을 위해 많은 컴퓨터 리소스를 사용 분산 처리 프레임워크중 Hadoop과 Spark가 있다. Hadoop 분산 데이터 처리의 공통 플랫폼 단일 소프트웨어가 아닌 분산 시스템을 구..

개발/Data 2020.12.30

[빅데이터를 지탱하는 기술] 빅데이터 입문기 #3

크로스집계란? 열 지향 스토리지! 시각화 도구들의 특징 데이터 마트의 설계 2-1 크로스 집계의 기본 테이블의 행과 열에 어떤 항목을 넣는지에 따라 크로스 테이블과 트랜잭션 테이블로 나뉜다. 크로스 테이블 행과 열이 교차하는 부분에 숫자 데이터가 들어감 데이터베이스에선 다루기 어려운 데이터 트랜잭션 테이블 행 방향으로만 증가 열 방향으로는 데이터가 증가되지 않음 크로스 집계란 트랜잭션 테이블에서 크로스 테이블로 변환하는 과정을 말한다. 엑셀로도 피벗 테이블을 통해 이용이 가능하다. 록업 테이블 - 테이블을 결합하여 속성을 늘리기 트랜잭션 테이블에 새로운 항목을 추가하지 않고, 다른 테이블과 결합하고 싶은 경우 사용함 여러가지 방법을 통해 집계할 수 있다. BI 도구를 사용한 크로스 집계 Pandas를 통..

개발/Data 2020.12.30

[빅데이터를 지탱하는 기술] 빅데이터 입문기 #2

첫번째 챕터에선 다음과 같은 내용에 대해서 알아볼 것이다. Hadoop과 NoSQL 데이터베이스의 역할과 데이터 웨어하우스를 중심으로 한 기술과의 차이? 데이터 파이프라인? 대화형 데이터 처리 스프레드시트와 BI 도구를 사용해 데이터의 변화 모니터링 배경 빅데이터의 정착 과거부터 데이터에 대한 처리는 항상 있었다. 단, 처리 속도와 방법에 문제때문에 하지 못하고 있었다. 지금은 이러한 문제가 해결되었기 때문에 빅데이터가 세상에 나오게 되었다. 빅데이터 기수의 요구 - Hadoop과 NoSQL 기존의 RDB로 취급할 수 없을정도의 데이터가 쌓이게 되었다. Hadoop - 다수의 컴퓨터에서 대량의 데이터 처리 여러대의 컴퓨터를 관리하는 프레임워크 구글의 분산처리 프레임워크인 MapReduce를 참고하여 개발..

개발/Data 2020.12.30

[빅데이터를 지탱하는 기술] 빅데이터 입문기 #1

20년 8월에 데이터를 분석하는 팀으로 이직하게 되었다. 기존에도 프론트엔드를 주로 개발해왔기 때문에 데이터를 시각화 하는 부분은 익숙하다 생각했고, 평소와 같이 개발하고 있었다. 확실히 환경이 달라지니 들려오는 여러 연관 기술들이 들려오기 시작했고, 한번 정리해보려고 했다. 책을 다 읽고난 이후에 드는 생각은 이직하기 이전에도 난 이러한 것들을 해왔었고, 여러가지 선택지중 하나를 전부인것마냥 개발하고 있었다는걸 깨달았다. 데이터를 다루고 분석함에 있어 전반적인 얘기를 하고 있고, 다양한 선택지와 방법을 제시해주고 있어서 재미있게 읽었다. 다만 생소한 용어들과 너무 넓은 범위를 다루고 있어 빠르게 읽히진 않았다. 엄청 깊이있는 내용을 다루지 않는다. 딱 입문하기 좋은 책이였던것같다. 추천받길 잘한것같다ㅎ

개발/Data 2020.12.30