Spark Cluster 구축 (Standalone Mode)

Open Source/Spark 2021. 9. 14. 22:54

spark 을 사용하다가 클러스터를 구축 할 때 반복작업들이 존재하기 때문에 해당 내용을 기록합니다.

아래 설치 명령어는 centos7 서버 기준(root 계정 사용)이기 때문에, ubuntu, macOS, windows 에서는 다를 수 있습니다.

1. 모든 노드 공통

먼저 OS 에 디펜던시를 설치한다.
- python3
- java
각 버전은 사용자 환경에 맞게 설치한다.
여기에서는 python 3.6, java 1.8, spark 2.4.4 를 설치한다.

1.1. hostname 설정

echo "x.x.x.1    spark-master" >> /etc/hosts
echo "x.x.x.2    spark-slave01" >> /etc/hosts
echo "x.x.x.3    spark-slave02" >> /etc/hosts

1.2. python 설치

yum install -y gcc openssl-devel bzip2-devel libffi-devel
curl -O https://www.python.org/ftp/python/3.6.8/Python-3.6.8.tgz
tar -xzf Python-3.6.8.tgz
cd Python-3.6.8/
./configure --enable-optimizations
make altinstall
which python3.6
rm /usr/bin/python
ln -s /usr/local/bin/python3.6 /usr/bin/python

1.3. java 설치

yum update -y
yum install -y java-1.8.0-openjdk-devel

echo "export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.292.b10-1.el7_9.x86_64" >> /root/.bash_profile
echo "export PATH=\$PATH:\$JAVA_HOME/bin" >> /root/.bash_profile

# 환경변수 세팅 실행
source /root/.bash_profile

1.4. spark 설치

curl -O https://archive.apache.org/dist/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
tar zxvf spark-2.4.4-bin-hadoop2.7.tgz
ln -s spark-2.4.4-bin-hadoop2.7 spark
echo "export SPARK_HOME=/root/spark" >> /root/.bash_profile
echo "export PATH=\$PATH:\$SPARK_HOME/bin" >> /root/.bash_profile

# 환경변수 세팅 실행
source /root/.bash_profile

1.4.1. spark slave 설정

cp $SPARK_HOME/conf/slaves.template $SPARK_HOME/conf/slaves
echo "spark-slave01" >> $SPARK_HOME/conf/slaves
echo "spark-slave02" >> $SPARK_HOME/conf/slaves

1.4.2. spark defaults / env 설정 (optional)

# spark defaults 설정
cp $SPARK_HOME/conf/spark-defaults.conf.template $SPARK_HOME/conf/spark-defaults.conf
echo "spark.master                     spark://spark-master:7077" >> $SPARK_HOME/conf/spark-defaults.conf
echo "spark.eventLog.enabled           true" >> $SPARK_HOME/conf/spark-defaults.conf
echo "spark.eventLog.dir               file:///tmp/spark/event-log" >> $SPARK_HOME/conf/spark-defaults.conf
echo "spark.serializer                 org.apache.spark.serializer.KryoSerializer" >> $SPARK_HOME/conf/spark-defaults.conf
echo "spark.executor.logs.rolling.maxRetainedFiles    10" >> $SPARK_HOME/conf/spark-defaults.conf
echo "spark.executor.logs.rolling.strategy            time" >> $SPARK_HOME/conf/spark-defaults.conf
echo "spark.executor.logs.rolling.time.interval       daily" >> $SPARK_HOME/conf/spark-defaults.conf

# spark env 설정
cp $SPARK_HOME/conf/spark-env.sh.template $SPARK_HOME/conf/spark-env.sh
echo "export SPARK_LOG_DIR=/tmp/logs" >> $SPARK_HOME/conf/spark-env.sh

2. master 노드 설정

ssh-keygen -t rsa

~/.ssh/id_rsa.pub spark-slave01:/root/.ssh/
~/.ssh/id_rsa.pub spark-slave02:/root/.ssh/

3. slave 노드 설정

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

4. spark cluster 실행

마스터노드에서 실행

$SPARK_HOME/sbin/start-all.sh

5. 만약 slave 노드를 하나 더 추가한다면?

모든 노드 공통의 설치 작업을 진행한다.
slave 노드의 설정을 진행한다.
추가한 slave 노드에서 아래 와 같이 실행한다.

$SPARK_HOME/sbin/start-slave.sh spark-master

'Open Source > Spark' 카테고리의 다른 글

[Spark] The case sensitive option of spark (0)	2020.10.21
[Spark] Altibase 데이터베이스 연동 (0)	2020.10.16
[Spark] 컬럼명 대소문자 구분 (case-sensitive) 옵션 (2)	2020.10.14

ABOUT ME

FWANI's 코딩로그 FWANI's 코딩로그

1. 모든 노드 공통

1.1. hostname 설정

1.2. python 설치

1.3. java 설치

1.4. spark 설치

1.4.1. spark slave 설정

1.4.2. spark defaults / env 설정 (optional)

2. master 노드 설정

3. slave 노드 설정

4. spark cluster 실행

5. 만약 slave 노드를 하나 더 추가한다면?

'Open Source > Spark' 카테고리의 다른 글

티스토리툴바

ABOUT ME

1. 모든 노드 공통

1.1. hostname 설정

1.2. python 설치

1.3. java 설치

1.4. spark 설치

1.4.1. spark slave 설정

1.4.2. spark defaults / env 설정 (optional)

2. master 노드 설정

3. slave 노드 설정

4. spark cluster 실행

5. 만약 slave 노드를 하나 더 추가한다면?

'Open Source > Spark' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바