Cloud
[GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(2) - Hive Metastore 배포
융무
2024. 1. 7. 23:57
플랫폼을 운영하면서 실제로 플랫폼 환경을 구축해보고 싶어 쿠버네티스 상에서 데이터 파이프라인을 구축하려고 합니다.
원천 데이터 소스의 경우 환경을 먼저 구축한 뒤에 데이터를 배치하려고 합니다.
[GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(1) - Hive Metastore MySQL로 구성
[GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(2) - Hive Metastore 배포
[GKE] Trino를 사용하여 MinIO에 저장된 데이터 쿼리하기(3) - Trino 설치 및 연동
Dockerfile 생성
Hive Metastore를 실행하기 위한 Docker 이미지를 만들기 위한 Dockerfile을 작성합니다.
FROM openjdk:11-slim
ARG HADOOP_VERSION=3.2.1
RUN apt-get update && apt-get install -y curl --no-install-recommends && \
rm -rf /var/lib/apt/lists/*
RUN curl https://archive.apache.org/dist/hadoop/common/hadoop-$HADOOP_VERSION/hadoop-$HADOOP_VERSION.tar.gz \
| tar xvz -C /opt/ \
&& ln -s /opt/hadoop-$HADOOP_VERSION /opt/hadoop \
&& rm -r /opt/hadoop/share/doc
RUN ln -s /opt/hadoop/share/hadoop/tools/lib/hadoop-aws* /opt/hadoop/share/hadoop/common/lib/ && \
ln -s /opt/hadoop/share/hadoop/tools/lib/aws-java-sdk* /opt/hadoop/share/hadoop/common/lib/
ENV HADOOP_HOME="/opt/hadoop"
ENV PATH="/opt/spark/bin:/opt/hadoop/bin:${PATH}"
RUN curl https://repo1.maven.org/maven2/org/apache/hive/hive-standalone-metastore/3.1.2/hive-standalone-metastore-3.1.2-bin.tar.gz \
| tar xvz -C /opt/ \
&& ln -s /opt/apache-hive-metastore-3.1.2-bin /opt/hive-metastore
RUN curl -L https://repo1.maven.org/maven2/com/mysql/mysql-connector-j/8.0.33/mysql-connector-j-8.0.33.jar \
-o /opt/mysql-connector-j-8.0.33.jar \
&& ln -s /opt/mysql-connector-j-8.0.33.jar /opt/hadoop/share/hadoop/common/lib/ \
&& ln -s /opt/mysql-connector-j-8.0.33.jar /opt/hive-metastore/lib/
RUN rm /opt/hive-metastore/lib/guava-19.0.jar && \
ls -lah /opt/hadoop/share/hadoop/common/lib/ && \
cp /opt/hadoop/share/hadoop/common/lib/guava-27.0-jre.jar /opt/hive-metastore/lib/ && \
cp /opt/hadoop/share/hadoop/tools/lib/hadoop-aws-3.2.1.jar /opt/hive-metastore/lib/ && \
cp /opt/hadoop/share/hadoop/tools/lib/aws-java-sdk-bundle-1.11.375.jar /opt/hive-metastore/lib/
CMD ["/opt/hive-metastore/bin/start-metastore"]
Docker 배포
Dockerfile을 사용하여 Hive Metastore 이미지를 빌드하고, 이를 Docker Hub 또는 Google Container Registry에 푸시합니다.
로컬 Docker 환경 또는 Kubernetes 클러스터에서 이미지를 실행합니다.
Docker 이미지 빌드
docker build -t hive-metastore .
Docker 이미지 푸시
docker push hive-metastore
Docker 컨테이너 실행
docker run -d -p 9083:9083 hive-metastore
로컬에서 빌드한 Docker 이미지를 GCR에 업로드할 수 있습니다.
Docker 이미지 빌드
docker build -t gcr.io/ggke-401900/hive-metastore .
Docker 이미지 푸시
docker push gcr.io/ggke-401900/hive-metastore
metastore 설정
metastore.xml은 Hive 메타스토어 서비스에 대한 중요한 설정을 포함하는 XML 파일입니다. 이 파일은 Hive 메타스토어가 어떻게 데이터베이스와 연결되고, 어떤 드라이버를 사용하는지 추가적인 설정 옵션들을 정의합니다.
kubectl create configmap metastore-cfg --from-file=metastore.xml -n hive
- metastore.xml은 다음과 같습니다.
<configuration>
<property>
<name>metastore.thrift.uris</name>
<value>thrift://localhost:9083</value>
<description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>
</property>
<property>
<name>metastore.task.threads.always</name>
<value>org.apache.hadoop.hive.metastore.events.EventCleanerTask</value>
</property>
<property>
<name>metastore.expression.proxy</name>
<value>org.apache.hadoop.hive.metastore.DefaultPartitionExpressionProxy</value>
</property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://mysql.mysql.svc.cluster.local:3306/test?createdatabaseifnotexist=true&useSSL=false</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.cj.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>mjs</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>1234</value>
</property>
<property>
<name>fs.s3a.server-side-encryption-algorithm</name>
<value>AES256</value>
</property>
<property>
<name>fs.s3a.endpoint</name>
<value>http://minio-service.minio-dev.svc.cluster.local:9000</value>
</property>
<property>
<name>fs.s3a.access.key</name>
<value>minioadmin</value>
</property>
<property>
<name>fs.s3a.secret.key</name>
<value>minioadmin</value>
</property>
<property>
<name>fs.s3a.path.style.access</name>
<value>true</value>
</property>
<property>
<name>fs.s3a.impl</name>
<value>org.apache.hadoop.fs.s3a.S3AFileSystem</value>
</property>
</configuration>
Hive Metastore 초기화 (hive-initschema.yaml)
- Hive Metastore 스키마 초기화를 위한 Kubernetes Job을 정의합니다.
- MySQL 데이터베이스에 연결하여 필요한 스키마를 생성합니다.
apiVersion: batch/v1
kind: Job
metadata:
name: hive-initschema
namespace: hive
spec:
template:
spec:
containers:
- name: hivemeta
image: gcr.io/ggke-401900/hive-metastore
command: ["/opt/hive-metastore/bin/schematool"]
args: ["--verbose", "-initSchema", "-dbType", "mysql", "-userName", "mjs",
"-passWord", "1234", "-url", "jdbc:mysql://mysql.mysql.svc.cluster.local:3306/test?useSSL=false"]
restartPolicy: Never
backoffLimit: 4
yaml 파일을 적용합니다.
kubectl apply -f hive-initschema.yaml
Metastore 배포 (meta.yaml)
- Hive Metastore 서비스를 위한 Kubernetes Deployment와 Service를 정의합니다.
- 이 설정은 Trino가 Hive Metastore와 통신할 수 있도록 합니다.
apiVersion: apps/v1
kind: Deployment
metadata:
name: metastore
namespace: hive
spec:
selector:
matchLabels:
app: metastore
strategy:
type: Recreate
template:
metadata:
labels:
app: metastore
spec:
containers:
- name: metastore
image: gcr.io/ggke-401900/hive-metastore
ports:
- containerPort: 9083
volumeMounts:
- name: metastore-cfg-vol
mountPath: /opt/hive-metastore/conf/metastore-site.xml
subPath: metastore.xml
command: ["/opt/hive-metastore/bin/start-metastore"]
args: ["-p", "9083"]
resources:
requests:
memory: "2Gi"
cpu: "1"
imagePullPolicy: Always
volumes:
- name: metastore-cfg-vol
configMap:
name: metastore-cfg
---
apiVersion: v1
kind: Service
metadata:
name: metastore
namespace: hive
spec:
ports:
- port: 9083
targetPort: 9083
selector:
app: metastore
yaml 파일을 적용합니다.
kubectl apply -f meta.yaml
mysql에 접속하여 metastore와 관련된 테이블들을 확인해 봅니다.
mysql> SHOW databases;
+--------------------+
| Database |
+--------------------+
| information_schema |
| my_database |
| mysql |
| performance_schema |
| sys |
| test |
+--------------------+
6 rows in set (0.00 sec)
mysql> USE test;
Database changed
mysql> SHOW TABLES;
+-------------------------------+
| Tables_in_test |
+-------------------------------+
| AUX_TABLE |
| BUCKETING_COLS |
| CDS |
| COLUMNS_V2 |
| COMPACTION_QUEUE |
| COMPLETED_COMPACTIONS |
| COMPLETED_TXN_COMPONENTS |
| CTLGS |
| DATABASE_PARAMS |
| DBS |
| DB_PRIVS |
| DELEGATION_TOKENS |
| FUNCS |
| FUNC_RU |
| GLOBAL_PRIVS |
| HIVE_LOCKS |
| IDXS |
| INDEX_PARAMS |
| I_SCHEMA |
| KEY_CONSTRAINTS |
| MASTER_KEYS |
| MATERIALIZATION_REBUILD_LOCKS |
| METASTORE_DB_PROPERTIES |
| MIN_HISTORY_LEVEL |
| MV_CREATION_METADATA |
| MV_TABLES_USED |
| NEXT_COMPACTION_QUEUE_ID |
| NEXT_LOCK_ID |
| NEXT_TXN_ID |
| NEXT_WRITE_ID |
| NOTIFICATION_LOG |
| NOTIFICATION_SEQUENCE |
| NUCLEUS_TABLES |
| PARTITIONS |
| PARTITION_EVENTS |
| PARTITION_KEYS |
| PARTITION_KEY_VALS |
| PARTITION_PARAMS |
| PART_COL_PRIVS |
| PART_COL_STATS |
| PART_PRIVS |
| REPL_TXN_MAP |
| ROLES |
| ROLE_MAP |
| RUNTIME_STATS |
| SCHEMA_VERSION |
| SDS |
| SD_PARAMS |
| SEQUENCE_TABLE |
| SERDES |
| SERDE_PARAMS |
| SKEWED_COL_NAMES |
| SKEWED_COL_VALUE_LOC_MAP |
| SKEWED_STRING_LIST |
| SKEWED_STRING_LIST_VALUES |
| SKEWED_VALUES |
| SORT_COLS |
| TABLE_PARAMS |
| TAB_COL_STATS |
| TBLS |
| TBL_COL_PRIVS |
| TBL_PRIVS |
| TXNS |
| TXN_COMPONENTS |
| TXN_TO_WRITE_ID |
| TYPES |
| TYPE_FIELDS |
| VERSION |
| WM_MAPPING |
| WM_POOL |
| WM_POOL_TO_TRIGGER |
| WM_RESOURCEPLAN |
| WM_TRIGGER |
| WRITE_SET |
+-------------------------------+
74 rows in set (0.00 sec)
Hive 관련 리소스가 올바르게 실행되고 있는지 확인합니다.
mun_js@cloudshell:~ (ggke-401900)$ kubectl get all -n hive
NAME READY STATUS RESTARTS AGE
pod/hive-initschema-xd7ct 0/1 Completed 0 3d19h
pod/metastore-78d4687f85-kqgm6 1/1 Running 0 3d20h
pod/trino-coordinator-5bcbbcddf4-j2bml 1/1 Running 1 (3d1h ago) 3d2h
pod/trino-worker-656f6c48cd-f5tfc 1/1 Running 0 89m
pod/trino-worker-656f6c48cd-mkkd4 1/1 Running 0 12m
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
service/metastore ClusterIP 10.52.7.186 <none> 9083/TCP 3d20h
service/trino ClusterIP 10.52.13.135 <none> 8080/TCP 3d19h
NAME READY UP-TO-DATE AVAILABLE AGE
deployment.apps/metastore 1/1 1 1 3d20h
deployment.apps/trino-coordinator 1/1 1 1 3d19h
deployment.apps/trino-worker 2/2 2 2 3d19h
NAME DESIRED CURRENT READY AGE
replicaset.apps/metastore-78d4687f85 1 1 1 3d20h
replicaset.apps/trino-coordinator-5bcbbcddf4 1 1 1 3d2h
replicaset.apps/trino-coordinator-5f47dffc99 0 0 0 3d19h
replicaset.apps/trino-worker-656f6c48cd 2 2 2 3d2h
replicaset.apps/trino-worker-6f5fc48987 0 0 0 3d19h
NAME COMPLETIONS DURATION AGE
job.batch/hive-initschema 1/1 47s 3d19h