Open Source
-
Spark Cluster 구축 (Standalone Mode)Open Source/Spark 2021. 9. 14. 22:54
spark 을 사용하다가 클러스터를 구축 할 때 반복작업들이 존재하기 때문에 해당 내용을 기록합니다. 아래 설치 명령어는 centos7 서버 기준(root 계정 사용)이기 때문에, ubuntu, macOS, windows 에서는 다를 수 있습니다. 1. 모든 노드 공통 먼저 OS 에 디펜던시를 설치한다. python3 java 각 버전은 사용자 환경에 맞게 설치한다. 여기에서는 python 3.6, java 1.8, spark 2.4.4 를 설치한다. 1.1. hostname 설정 echo "x.x.x.1 spark-master" >> /etc/hosts echo "x.x.x.2 spark-slave01" >> /etc/hosts echo "x.x.x.3 spark-slave02" >> /etc/host..
-
[Spark] The case sensitive option of sparkOpen Source/Spark 2020. 10. 21. 12:56
Used spark version: 2.4.4 The column of spark DataFrame can be selected regardless of case. Because the spark uses case-sensitive option (spark.sql.caseSensitive : default is False). 1. Example of case-sensitive option is False (default) You can select columns ignoring the case of column name. df = spark.createDataFrame([{'ABC': 1, 'abc': 2}]) df.show() ''' output: +---+---+ |ABC|abc| +---+---+ ..
-
[Spark] Altibase 데이터베이스 연동Open Source/Spark 2020. 10. 16. 19:12
Altibase? Main Memory DBMS 데이터와 인덱스를 모두 메모리에 저장하여 빠른 처리 가능 물리 메모리 크기만큼 데이터 저장가능 기존 파일시스템 혼용 가능 2018년 오픈소스 전환 라이센스 서버: GNU AGPLv3 클라이언트: GNU LGPLv3 상업적 이용시 : General Polygon Clipper (GPC) License 구매 필요 설치 - 설치 설명서 링크: github.com/ALTIBASE/Documents/blob/master/Manuals/Altibase_7.1/kor/Installation.md Spark 를 이용한 데이터 로드 Altibase.jar 의 위치를 파악 한다. (Altibase JDBC Driver) Altibase.jar 는 Altibase 설치시 $A..
-
[Spark] 컬럼명 대소문자 구분 (case-sensitive) 옵션Open Source/Spark 2020. 10. 14. 16:24
spark version: 2.4.4 spark 은 기본 설정으로 컬럼명의 대소문자를 구분하지 않고 선택을 할 수 있다. 옵션의 이름은 spark.sql.caseSensitive 로 기본 값은 False 이다. 이 때는 아래의 코드와 같이 컬럼명이 대소문자만 다른 문자열로 되어 있는 경우, 하나의 컬럼만 특정하여 선택이 불가능하다. df = spark.createDataFrame([{'ABC': 1, 'abc': 2}]) df.show() ''' output: +---+---+ |ABC|abc| +---+---+ | 1| 2| +---+---+ ''' df.select('ABC').show() ''' output: Traceback (most recent call last): ... pyspark.sql..
-
Docker 란?Open Source/Docker 2019. 12. 23. 17:09
Docker 대학교 막바지에 학교 연계 인턴으로 QA 시스템을 계발 하는 일을 하였다. 이 시스템 개발에 도커를 사용하였는데, 이 당시에 처음 사용해본 서비스였다. 처음에 도커를 사용 할 때 몇 가지 어려운 점이 있었는데, 시간이 지났지만 내용을 정리를 해본다. Docker 란? 정의: 소프트웨어 패키지(image)를 가상화(container) 해주는 오픈 소스 프로젝트 출시일: 2013년 3월에 오픈소스로 배포 되었다. PaaS 기업인 dotCloud 라는 회사에서 내부 프로젝트로 시작되었다. Docker 는 왜 개발 되었을까? 도커는 개발자가 만든 프로그램이 동작을 하기 위한 환경을 이미지화 하여 어느 서버에서든 이 이미지를 이용해 컨테이너를 실행 시키면 똑같은 환경에서 똑같은 프로그램이 동작하는 것..
-
Koalas 란?Open Source/Koalas 2019. 12. 20. 16:58
본 게시물은 Databricks의 Koalas 프레젠테이션 자료를 해석 정리 한 것 입니다. 학습 목적으로 정리된 게시물 입니다. 데이터 사이언티스트 (Data Scientist) 의 일반적인 배움의 순서 처음 학습 할 때 ( 온라인강좌(MOOC, ...) , 책, 대학 수업, ... ) -> pandas 로 배움 작은 데이터 셋을 분석 할 때 -> pandas 로 분석 큰 데이터 셋을 분석 할 때 -> spark의 Dataframe을 사용하여 분석 pandas 란? 2008 년에 Wes McKinney에 의해 개발 python 에서 데이터 조작(mainpulation) 및 분석(analysis)에 표준이 되는 도구 python data science ecosystem 에 깊게 사용되고 있음 (예, nu..