'Programming/Spark' 카테고리의 글 목록

Spark - 어플리케이션 서브밋

어플리케이션 서브밋 스파크 서브밋 스크립트는 스파크 bin 디렉토리 하위에 위치하며 클러스터 상에 어플리케이션을 구동하기 위해서 사용된다. 해당 스크립트는 스파크가 지원하는 모든 클러스터 매니저에서 사용되며 모든 클러스터에 대한 단일한 인터페이스를 제공한다. 어플리케이션 번들 일반적으로 어플리케이션은 다른 프로젝트에 디펜던시를 가진다. 그리고 우리는 스파크 클러스터에 어플리케이션을 구동하기위해 코드 뿐만 아니라 그 디펜던시도 필요하다. 이를 위해 어플리케이션 코드와 디펜던시는 함께 assembly jar(혹은 uber jar)로 함께 패키징되어야 하며, 그 방법은 sbt, maven 등 다양한 빌드툴에서 제공한다. 해당 내용은 여기서 다루지 않겠다. 어플리케이션 구동하기 어플리케이션 번들이 준비되면 bi..

Programming/Spark 2017.03.06

Spark - Stand alone 클러스터

이번에는 클러스터 모드의 스파크를 기동해보겠다. 먼저 가장 단순한 형태인 StandAlone 클러스터를 구축해보고 클러스터 상에서 스파크 작업을 수행하는 것을 목표로 한다. 다운로드 스파크 공식 사이트의 다운로드 페이지(http://spark.apache.org/downloads.html )에서 적당한 스파크를 버전을 다운로드 받은 후 로컬PC의 적당한 디렉토리에 압축해제를 해보자. $ ls -al total 112 drwxr-xr-x@ 16 devsun staff 544 12 16 11:18 . drwxr-xr-x 36 devsun staff 1224 2 17 10:14 .. -rw-r--r--@ 1 devsun staff 17811 12 16 11:18 LICENSE -rw-r--r--@ 1 devs..

Programming/Spark 2017.02.17

Spark - 클러스터 개요

개요 This document gives a short overview of how Spark runs on clusters, to make it easier to understand the components involved. Read through the application submission guide to learn about launching applications on a cluster. 이장에서는 Spark가 클러스터에서 어떻게 동작하는지를 살펴보고 각 컴포넌트들이 어떻게 참여하는지 알아본다. Components 스파크 어플리케이션은 클러스터상의 독립적인 프로세스에서 수행된다. 이때 일련의 프로세스들은 드라이버 프로그램의 SparkContext 객체와 협력하게 된다. 클러스터상의 실행을 위..

Programming/Spark 2017.02.16

Spark - RDD

스파크에서 RDD는 가장 주요한 개념이다. RDD는 병렬로 수행될 수 있는 엘리먼트의 컬렉션이며, fault-tolerant하다. 앞에서 보았듯이 RDD를 생성하는 방법은 두가지이다. 첫번째는 내부의 컬렉션으로 부터 생성하는 방식이며 두번째는 외부의 리소스로부터 생성하는 방법이 있다. 내부컬렉션으로부터 생성 아래와 같이 간단한 프로그램을 작성해보자. object RddCollectionTest { def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().setAppName("RddCollectionTest").setMaster("local")) val data = Array(1,2,3,4,5) val distData..

Programming/Spark 2017.02.01

Spark - 개요 및 시작하기

Overview 스파크 어플리케이션의 드라이버 프로그램들로 구성된다. 여기서 드라이버 프로그램이란 클러스터상에서 병렬 연산으로 수행되는 사용자 메인 함수를 의미한다.그리고 스파크는 두가지 주요한 추상화를 제공하는데, RDD(Resillent Distributed DataSet)과 공유 변수(Shared variable)이다. RDD는 파티션된 클러스터에 병렬 연산으로 수행될 수 있는 켈렉션이다. RDD는 일반적인 스칼라 컬렉션으로부터 만들어질 수 있고, HDFS와 같은 외부 시스템으로부터 만들어질 수도 있다. RDD는 노드 장애에 대해서 자동으로 복구된다. 스파크 타스크는 기본적으로 클러스터상에서 병렬 수행된다. 이에 변수들은 공유될 필요가 있다. 스파크는 두가지 타입의 공유 변수를 제공한다. 첫번째는 ..

Programming/Spark 2017.02.01

Spark + IntelliJ 프로젝트 구성하기

일단 무작정 스파크를 시작해보자. 목표는 빌드환경 구성을 위해서 sbt를 사용할 것이며 텍스트에디터에 개발을 수행할 수 없으니 IntelliJ로 세팅을 하겠다. 1. 인텔리J에서 프로젝트 구성File -> New -> Project 순으로 메뉴를 선택하면 아래와 같은 화면이 나타난다.당연히 프로젝트는 Scala에 SBT를 선택한다. 2. 프로젝트가 구성되면 build.sbt 파일에 다음과 같이 입력한다.name := "spark-test" version := "1.0" scalaVersion := "2.11.7" libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"아직 sbt를 모르지만 간략하게 설명하면 name은 프로젝트 명을 의미하고..

Programming/Spark 2017.02.01

욱'S 노트

Programming/Spark 6

티스토리툴바

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31