Open Source/Spark
-
Spark Cluster 구축 (Standalone Mode)Open Source/Spark 2021. 9. 14. 22:54
spark 을 사용하다가 클러스터를 구축 할 때 반복작업들이 존재하기 때문에 해당 내용을 기록합니다. 아래 설치 명령어는 centos7 서버 기준(root 계정 사용)이기 때문에, ubuntu, macOS, windows 에서는 다를 수 있습니다. 1. 모든 노드 공통 먼저 OS 에 디펜던시를 설치한다. python3 java 각 버전은 사용자 환경에 맞게 설치한다. 여기에서는 python 3.6, java 1.8, spark 2.4.4 를 설치한다. 1.1. hostname 설정 echo "x.x.x.1 spark-master" >> /etc/hosts echo "x.x.x.2 spark-slave01" >> /etc/hosts echo "x.x.x.3 spark-slave02" >> /etc/host..
-
[Spark] The case sensitive option of sparkOpen Source/Spark 2020. 10. 21. 12:56
Used spark version: 2.4.4 The column of spark DataFrame can be selected regardless of case. Because the spark uses case-sensitive option (spark.sql.caseSensitive : default is False). 1. Example of case-sensitive option is False (default) You can select columns ignoring the case of column name. df = spark.createDataFrame([{'ABC': 1, 'abc': 2}]) df.show() ''' output: +---+---+ |ABC|abc| +---+---+ ..
-
[Spark] Altibase 데이터베이스 연동Open Source/Spark 2020. 10. 16. 19:12
Altibase? Main Memory DBMS 데이터와 인덱스를 모두 메모리에 저장하여 빠른 처리 가능 물리 메모리 크기만큼 데이터 저장가능 기존 파일시스템 혼용 가능 2018년 오픈소스 전환 라이센스 서버: GNU AGPLv3 클라이언트: GNU LGPLv3 상업적 이용시 : General Polygon Clipper (GPC) License 구매 필요 설치 - 설치 설명서 링크: github.com/ALTIBASE/Documents/blob/master/Manuals/Altibase_7.1/kor/Installation.md Spark 를 이용한 데이터 로드 Altibase.jar 의 위치를 파악 한다. (Altibase JDBC Driver) Altibase.jar 는 Altibase 설치시 $A..
-
[Spark] 컬럼명 대소문자 구분 (case-sensitive) 옵션Open Source/Spark 2020. 10. 14. 16:24
spark version: 2.4.4 spark 은 기본 설정으로 컬럼명의 대소문자를 구분하지 않고 선택을 할 수 있다. 옵션의 이름은 spark.sql.caseSensitive 로 기본 값은 False 이다. 이 때는 아래의 코드와 같이 컬럼명이 대소문자만 다른 문자열로 되어 있는 경우, 하나의 컬럼만 특정하여 선택이 불가능하다. df = spark.createDataFrame([{'ABC': 1, 'abc': 2}]) df.show() ''' output: +---+---+ |ABC|abc| +---+---+ | 1| 2| +---+---+ ''' df.select('ABC').show() ''' output: Traceback (most recent call last): ... pyspark.sql..