Greenplum (8) 썸네일형 리스트형 Greenplum ETL도구 소개 Greenplum 공식사이트에서 ETL 도구를 소개한 사항을 정리해 보았다. greenplum.org/greenplum-etl/ Introduction to Greenplum ETL tool – Overview Why ETL is important for Greenplum As a data warehouse product of future, Greenplum is able to process huge set of data which is usually in petabyte level, but Greenplum can’t generate such number … greenplum.org 1. pg_dump Postgresql 의 공식 백업 솔루션이며 일반 파일, 압축 파일, 사용자 정의 형식으로 dump .. [Postgresql] general_series 함수를 이용한 더미데이터 만드는 방법 프로젝트를 수행하다 보면 특정 테이블에 대해서 기능/단위테스트 또는 성능측정/쿼리튜닝을 수행하는 경우가 발생한다. 개발자 또는 테스터가 일일히 테이터를 넣는 것은 한계가 있고 10만건, 100만건 이상의 대용량의 상황을 가정할 경우도 생기기 때문에 Postgresql DBMS에서 제공하는 general_series 함수를 이용하여 더미데이터, 테스트데이터를 만드는 방법을 추천한다. 실행환경 Postgresql 9.4 + Greenplum 6.11.x Postgresql 13 dbeaver 7.3.4 먼저 general_series(1, 10) 을 실행해서 어떻게 작동하는지 알아보자. select * from generate_series(1, 10) general_series 1, 10을 입력하면 1부터 .. DB 관리툴 - dbeaver 설치 및 간단 사용기(윈도우 10) Greenplum 이 5에서 6으로 업그레이드가 되면서 기존에 사용하던 pgAdmin 3 가 에러를 뱉어 내면서 우연치 않게 SQL Tool - dbeaver 를 발견하였다. pgAdmin 4 는 웹 기반으로 개발되어서 그런지 툭하면 hang 이 걸리면서 작동이 안되는 경우가 많아 개발자/DBA 분들한테 외면을 받고 있다. 지금 사용하는 DBMS가 Greenplum 이거나 Postgersql 이면 dbeaver 를 권장한다. dbeaver 특징 Community Edition 버전을 사용하면 라이센스(Apache License)가 무료이다. 자바/이클립스 기반으로 개발되어서 윈도우, 리눅스, MAC에서 구동된다. JDBC 기반으로 DB를 연결해서 그런지 엄청나게 많은 DB를 지원한다. (ORACLE, M.. Greenplum biopython-1.76 모듈 설치 Greenplum 에 바이오파이썬 모듈을 설치하여 pl/python function 에서 바이오파이썬을 사용해 보도록 하자. 바이오파이썬 공식홈페이지 - http://biopython.org Biopython · Biopython Biopython See also our News feed and Twitter. Introduction Biopython is a set of freely available tools for biological computation written in Python by an international team of developers. It is a distributed collaborative effort to develop Python librarie biopython.or.. Greenplum - Procedural Languages 란? Greenplum Function 을 SQL만 이용하여 개발하는 것이아니고 Java, Python 등 언어를 선택하여 개발할 수 있게끔 해주는 기능이 Procedural Languages 이다. SQL의 한계를 넘어서 자바의 특정 패키지/라이브러리, 파이썬의 모듈을 이용할 수 있으니 엄청나게 좋은 기능이라고 할 수 있는 것이다. 요즘에는 파이썬의 모듈을 추가로 설치하여 데이터를 분석하는 것이 트렌드인 것 같다. (파이썬의 강력한 분석함수들이 오픈소스로 제공되어 있고 사용하기가 편리하다. 하지만 모듈 설치는 어렵다.;;;) 현재 Greeplum 6 에서 지원하는 Procedural Languages 는 총 6가지 이며 pgSQL/Python 은 따로 설치를 하지 않아도 사용할 수 있다. (Greenplum.. Greenplum PXF 란? Greenplum PXF(Platform Extension Framework) Greenplum이 아닌 외부시스템에서 가지고 있는 DATA 를 Greenplum 으로 Load 할 수 있는 프레임워크이다. 외부시스템 DATA는 ORACLE, Maraidb 처럼 RDBMS의 테이블이 될 수 있으며 하둡의 HDFS, 파일시스템의 SAM File, XML, JSON 등이 될 수 있다. PXF 는 Greenplum 5.x 때부터 사용되었으며 6.x 에서부터는 완전 권장하는 느낌(?)이다. ## PXF 장점 많은 유형의 DataSource를 Load 할 수 있다. 병렬로 데이터를 처리하여 속도가 빠르다. 기본 제공 모듈로써 추가비용을 낼 필요없이 자유롭게 사용할 수 있다. ## Greenplum 버전별로 DATA .. Greenplum minor 업그레이드하기(6.3.0->6.11.1) 소프트웨어는 항상 버그가 있고 성능개선이 있어 업그레이드가 꼭 필요하다. Greenplum 도 6.10.x. 이하 버전에서 확인된 버그가 발견되어 6.11.0 이상으로 업그레이드를 권장하고 있다. 그래서 Greenplum 6.3.0 에서 6.11.1 로 업그레이드를 해보도록 하자. ## 업그레이드시 유의사항 Greenplum DB의 downtime 이 발생한다. (어플리케이션, ETL 프로그램등을 잠시 중단하여야 한다.) ## 업그레이드 가이드 greenplum.docs.pivotal.io/6-11/install_guide/upgrading.html Upgrading from an Earlier Greenplum 6 Release | Pivotal Greenplum Docs Upgrading from a.. statement_timeout 속성에 대해서 ETL 이나 배치프로그램에서 쿼리를 실행할때 시간제한을 두고 싶은 쿼리가 있을 것이다. 무거운 쿼리를 시간제한없이 실행하면 서버에 부하를 많이 줄 수도 있고 Lock이 발생해서 장애의 원인이 될 수 있을 것이다. 이때 사용하는 옵션이 이때 사용하는 옵션이 statement_timeout 이다. 실제 운영환경에서는 2시간(2h) 설정을 많이 사용하고 있으며 Role 별로 설정할 수 있어 유연하게 사용할 수 있다. 다만 0 으로 설정하면 무제한으로 쿼리가 실행될 수 있다. (!!!주의가 필요!!!) statement_timeout 설정값 확인방법 [root@mdw ~]# su - gpadmin [gpadmin@mdw ~]$ gpconfig -s statement_timeout Values on all seg.. 이전 1 다음