본문 바로가기

개발이야기/AI2

Spark Apache Spark 1. Apache Spark란? 메모리 내 처리를 지원하여 빅데이터를 분석하는 애플리케이션의 성능을 향상시키는 오픈 소스 병렬 처리 프레임워크 빅데이터 솔루션은 기존 데이터베이스에 비해 너무 크거나 복잡한 데이터를 처리하도록 설계 Spark는 메모리에서 대량의 데이터를 처리하므로 디스크 기반 대체 방법보다 훨씬 빠름 In-Memory 기반 통합 컴퓨팅 엔진 In-Memory : 빅데이터 시대에 데이터 처리 속도를 향상시킬 수 있는 핵심 기술 암시적 데이터 병렬성과 장애 허용, 완전한 클러스터를 프로그래밍하기 위한 인터페이스 제공 유연성과 MapReduce에 대한 확장성을 훨씬 빠른 속도로 제공 데이터를 읽고, 변형하고, 합계를 낼 수 있으며 복잡한 통계 모델들을 쉽게 학습하고 배포.. 2020. 12. 17.
Map Reduce Map Reduce 1. Map Reduce 대용량 데이터 처리를 위한 분산 프로그래밍 모델 구글에서 2004년 발표한 소프트웨어 프레임워크 타고난 병행성(병렬 처리 지원)을 내포 누구든지 임의로 활용할 수 있는 충분한 서버를 이용하여 대규모 데이터 분석 가능 여러 노드에 task를 분배하는 방법 노드 프로세스 데이터는 가능한 경우, 해당 노드에 저장 흩어져 있는 데이터를 수직화하여, 그 데이터를 각각의 종류 별로 모으고, filtering과 sorting을 거쳐 데이터를 뽑아냄 1-1. Map Reduce task - Map (흩어져 있는 데이터를 Key-value 형태로 연관성 있는 데이터 분류로 묶는 작업) - Reduce (Map화한 작업 중 중복 데이터를 제거하고 원하는 데이터를 추출하는 작업).. 2020. 12. 17.