تخطي إلى المحتوى الرئيسي

Run dbt Core on Spark (Kubernetes)

This guide explains how to set up dbt Coreمع أباتشي سبارك running on a Kubernetes cluster. Using Ilum as the execution engine, you can run scalable data transformation pipelines directly on your data lake.

You have two primary ways to connect dbt to Spark on Ilum:

Thrift Server vs. Spark Connect

ميزة Method 1: Spark Thrift Server (Legacy)Method 2: Spark Connect (Modern)
ProtocolJDBC/ODBC (via HiveDriver)gRPC (via Spark Connect)
Connection Typeطريقة: التوفير طريقة: الجلسة
معمار Requires a dedicated Thrift Server podConnects directly to Spark Driver
PerformanceHigher latency (row-based serialization)High performance (Arrow-based)
أفضل ل BI Tools (Tableau, PowerBI), Legacy appsData Engineering, Python/dbt pipelines
New to Spark Connect?

For a deep dive into the architecture, check out our Spark Connect on Kubernetes Guide.


المتطلبات المسبقه

Before starting, ensure your development environment is ready:

  • مجموعة Kubernetes : You need a running K8s cluster (GKE, EKS, AKS, or Minikube).
  • Tools:
  • Knowledge: Basic understanding of dbt projects and Spark concepts.

How to Configure dbt with Spark on Kubernetes

Choose your preferred connection method:

Step 1: Deploy Spark Thrift Server

Deploy Ilum with the SQL module (acting as a scalable Thrift server) and Hive Metastore enabled:

Helm Install
خوذة الريبو إضافة ILUM https://charts.ilum.cloud 
Helm تثبيت ilum ilum / ilum \
--set ilum-hive-metastore.enabled=true \
--set ilum-core.metastore.enabled=true \
--set ilum-core.metastore.type=hive \
--set ilum-sql.enabled=true \
--set ilum-core.sql.enabled=true

Step 2: Connect to the Thrift Service

1. Identify the service:

Get Service
kubectl الحصول على الخدمة 

ابحث عن الخدمة التي تحتوي على "sql-thrift-binary" في اسمها.

2. Port-forward:

Port Forward
التفريغ منفذ إلى الأمام SVC / ILUM - SQL - التوفير ثنائي 10009: 10009 

هذا يجعل خادم التوفير متاحا على المضيف المحلي:10009 .

3. Test with Beeline (optional):

الخط المباشر -u "JDBC: Hive2://localhost: 10009/default" 

ركض:

عرض  المناضد ; 

توقع قائمة فارغة أو جداول موجودة.

Configuring and Running dbt

1. Clean Environment (if needed):

Uninstall Conflict
إلغاء تثبيت النقطة DBT-Spark pyspark -Y 

2. Install dbt and dependencies:

Install dbt-spark
pip install pyspark==3.5.7
تثبيت النقطة DBT-Core
تثبيت النقطة "dbt-spark [PyHive ، الجلسة]"
pip install --upgrade thrift

3. Verify installation:

Verify dbt
DBT --version 

Create dbt Project

1. Initialize a dbt project:

Init Project
ilum_dbt_project DBT init 

2. Answer the setup prompts:

Setup Prompts
Which database? 1 (spark)
host: localhost
Desired authentication method: 3 (thrift)
port: 10009
schema: default
threads: 1

This creates the ilum_dbt_project directory and a profiles.yml file in ~/.dbt/.

Configure dbt for Ilum

حرر ~ / .dbt / profiles.yml to include both Thrift and Spark Connect targets:

~ / .dbt / profiles.yml
ilum_dbt_project : 
هدف : الادخار # Default target
النواتج :
الادخار :
نوع : شراره
أسلوب : الادخار
مضيف : المضيف المحلي
ميناء : 10009
مخطط : افتراضي
المواضيع : 1
connect_retries : 5
connect_timeout : 60
connect_args :
عنوان URL : "JDBC: Hive2://localhost:10009/default; transportMode = ثنائي ؛ hive.server2.transport.mode=ثنائي"
سائق : "org.apache.hive.jdbc.HiveDriver"
المصادقه : "لا شيء"

spark_connect:
نوع : شراره
أسلوب : جلسة
مضيف : المضيف المحلي
ميناء : 15002
مخطط : افتراضي
المواضيع : 1

Switch between targets:

Run dbt
# Use Thrift (default)
dbt run

# Use Spark Connect
dbt run --target spark_connect

# Or set default in dbt_project.yml
# target: spark_connect
  • اتصال الاختبار:

    Debug dbt
    ilum_dbt_project القرص المضغوط 
    تصحيح أخطاء DBT

    تأكد من عدم ظهور أي أخطاء ، مما يشير إلى اتصال ناجح بخادم Thrift.

Create a Model to Write Data

  • إنشاء نموذج:

  • نماذج/sample_data.sql

    نماذج/sample_data.sql
    {{ تكوين ( تتحقق = "الجدول" ) }} 

    اختار
    معرف ,
    اسم
    من (
    القيم
    ( 1 , "أليس" ) ,
    ( 2 , "بوب" )
    ) مثل t ( معرف , اسم )
  • تشغيل الموديل:

    Run sample_data
    dbt run --select sample_data

Create a Model to Read Data

  • إنشاء نموذج:

  • نماذج/read_data.sql

    نماذج/read_data.sql
    {{ تكوين ( تتحقق = "الجدول" ) }} 

    اختار
    معرف ,
    اسم ,
    طول ( اسم ) مثل name_length
    من {{ المرجع ( 'sample_data' ) }}
  • تشغيل الموديل:

    Run read_data
    dbt run --select read_data

Verify Results

1. Monitor Job in Ilum UI:

  • Access the Ilum UI (URL provided in your Ilum setup, e.g. port-forward)

  • Navigate to the Jobs section

  • Look for the job named ilum-sql-spark-engine

  • Check job status, logs, and execution details to confirm successful processing

    2. Query with Beeline:

    الخط المباشر -u "JDBC: Hive2://localhost: 10009/default" 

    3. Run query:

    اختار  *  من  افتراضي . read_data ; 

    Expected output:

    +----+-----+------------+ 
    | معرف | الاسم | name_length |
    +----+-----+------------+
    | 1 | أليس | 5 |
    | 2 | بوب | 3 |
    +----+-----+------------+

Troubleshooting dbt-spark Connections

Common issues when connecting dbt to Spark on Kubernetes:

Error: "ThriftTransportException: Could not connect to localhost:10009"

Cause: The port forwarding tunnel is down or the Thrift Server pod is not running. حل :

  1. Check if the Thrift pod is running: kubectl get pods -l app.kubernetes.io/name=ilum-sql
  2. Restart port-forwarding: التفريغ منفذ إلى الأمام SVC / ILUM - SQL - التوفير ثنائي 10009: 10009
Error: "grpc._channel._InactiveRpcError: failed to connect to all addresses"

Cause: Your local dbt client cannot reach the Spark Connect gRPC port (15002). حل :

  • Ensure you have port-forwarded the Driver Pod, not the Service (unless using NodePort).
  • Verify you are using طريقة: الجلسة في profiles.yml.
Error: "AnalysisException: Table or view not found"

Cause: Hive Metastore connectivity issue. حل :

  • Ensure ilum-core.metastore.enabled=true was set during Helm install.
  • Check if the schema (database) exists in Spark: spark.sql("SHOW DATABASES").show()

تزامن

For production orchestration using Apache Airflow, see the dedicated guide: Orchestrate dbt with Airflow