[천지일보=장수경 기자] 수많은 자료들을 저장하고 분석하는 방법은 여러가지이다. 빅데이터 분석에서 주로 활용되는 기술은 병렬처리 방식이다.

병렬처리를 잘 할 수 있도록 도와주는 도구는 무엇일까? 바로 스파크이다. 아파치 스파크는 통합 컴퓨팅 엔진으로 클러스터 환경에서 데이터 병렬로 처리하는 라이브러리 집합입니다.

스파크를 사용하는 데이터 과학자들은 파이썬, 자바, 스칼라, R언어와 SQL 뿐만 아니라 스트리밍, 머신러닝 등 넓은 범위까지 제공해 사용한다.

스파크를 보다 잘 쓸수 있도록 도와주는 책이 나왔다. ‘스파크 완벽 가이드'의 빌체임버스, 마테이 자하리아 저자는 최신 스파크 기능들을 책으로 개발하는데 필요한 지식을 얻기 바란다고 밝혔다.

이 책은 기존에 스파크 책들에서 비중이 적었던 DataFrame, Dataset, 스파크SQL, 구조적 스트리밍을 집중적으로 소개했다.

빌 체임버스, 마테이 자하리아 지음/ 우성한 , 이영호, 강재원 옮김 / 한빛미디어

천지일보는 24시간 여러분의 제보를 기다립니다.
저작권자 © 천지일보 무단전재 및 재배포 금지