التعامل مع تبعيات الشرارة في إيلوم

إيلوم provides three methods to handle dependencies for شرارة على Kubernetes, each suited for different use cases ranging from rapid prototyping to stable production environments.

Comparison of Dependency Management Methods

Method	أفضل ل	استمرار	Startup Speed
Custom Docker Image	إنتاج, Large dependencies, Security	High (Immutable)	Fast (Pre-built)
Runtime Injection	Testing, PoCs, Small/Transient libs	Medium (Cached)	Slower (Downloads at startup)
دفتر `pip install`	Ad-hoc Experiments, Exploration	None (Session only)	Slowest (Repeated installs)

1. Dedicated Docker Image (Production Best Practice)

تتضمن هذه الطريقة إنشاء صورة Docker مخصصة تتضمن جميع التبعيات المطلوبة. إنه يضمن الاتساق عبر البيئات وهو أفضل نهج لأحمال عمل الإنتاج.

خطوات إنشاء صورة شرارة مخصصة

ابدأ بالصورة الأساسية الرسمية ل Ilum Spark.
أضف JARs الضرورية لأي تبعيات تستند إلى Java.
قم بتثبيت حزم Python المطلوبة.
إنشاء الصورة ودفعها إلى سجل خاص أو عام.
قم بتكوين Ilum لاستخدام هذه الصورة الجديدة.

مثال: إضافة دعم Apache Iceberg

يوجد أدناه مثال على Dockerfile الذي يبني على الصورة الأساسية ل Ilum Spark ويضيف دعما ل Apache Iceberg:

دوكر فايل
من ilum/spark:3.5.8

مستخدم root

# إضافة JARs لدعم Iceberg
جمع --chmod=644 https://repo1.maven.org/maven2/org/apache/iceberg/iceberg-spark-runtime-3.5_2.12/1.8.0/iceberg-spark-runtime-3.5_2.12-1.8.0.jar $SPARK_HOME/jars

# تثبيت تبعيات Python
RUN python3 -m pip install pandas pyiceberg[hive,s3fs,pandas,snappy,gcsfs,adlfs]

مستخدم ${spark_uid}

بناء الصورة ودفعها

بعد كتابة Dockerfile (على سبيل المثال، تم حفظه ك دوكر فايل في الدليل الحالي)، قم بإنشاء الصورة ودفعها:

Build and Push Image
docker build -t myPrivateRepo/spark:3.5.8-iceberg .
docker push myPrivateRepo/spark:3.5.8-iceberg

تكوين Ilum لاستخدام الصورة المخصصة

بمجرد توفر الصورة في سجل حاوية، قم بتحديث Ilum لاستخدام صورة Spark المخصصة هذه:

UI (Job & Service)
Helm (Install Time)
واجهة برمجة تطبيقات REST
Global Default (Cluster Config)

Per-Job/Service Setting: When submitting a Spark job or Service, specify the image by setting this param:

تكوين
spark.kubernetes.container.image: myPrivateRepo / شرارة:3.5.8-مثلجة

During the installation process: أضف هذه العلامة إلى أمر تثبيت helm الخاص بك:

helm install ...
--جبر ilum-core.kubernetes.defaultCluster.config.spark\\.kubernetes\\.container\\.image="myPrivateRepo/spark:3.5.8-iceberg"

When submitting a job programmatically, verify the صورة parameter:

Submit Job
حليقه -X منصب "http://ilum-core/api/v1/job/submit" \
  -F "name=my-custom-job" \
  -F "image=registry.example.com/my-team/spark-custom:v1" \
  ...

You can set the default image for the entire cluster via the UI using one of two methods.

Option A: General Tab (Spark Version)

انتقل إلى الزر عام tab of your cluster settings. Locate the Spark Version field and enter your custom image tag (e.g., myPrivateRepo/spark:3.5.8-iceberg).

تعيين إصدار الشرارة على إعدادات مجموعة الشرارة

Option B: Configuration Tab

انتقل إلى الزر تكوين tab. Add a new parameter spark.kubernetes.container.image and set its value to your custom image.

Set spark version on spark cluster properties section

أفضل الممارسات

حافظ على محاذاة جميع إصدارات التبعية مع إصدار Spark المستخدم.
قم بتحديث الصورة المخصصة بانتظام لتضمين تصحيحات الأمان وأحدث إصدارات التبعية.
قم بتخزين الصور في سجل حاويات موثوق به ويمكن الوصول إليه.
استخدم نظام تعيين الإصدار لصورك (على سبيل المثال، قم بتضمين إصدارات Spark والميزات في العلامة).

استكشاف الاخطاء

Common Image Issues

أصدر	حل
عدم تطابق التبعية	تأكد من توافق جميع حزم JARs و Python مع إصدار Spark المستخدم.
لم يتم العثور على الصورة	تحقق من اسم الصورة وأنه تم دفعها إلى السجل الصحيح (وأن Ilum لديه حق الوصول إلى هذا السجل).
فشل الوظيفة بسبب فقدان التبعيات	تحقق جيدا من أن وظيفة Spark تستخدم الصورة المخصصة المقصودة (تحقق من تكوين الصورة في Ilum أو الأمر spark-submit).

2. Runtime Injection (Spark Packages & PyPI)

للتطوير والاختبار السريع، يمكنك إضافة تبعيات ديناميكيا باستخدام تكوين Spark. يجلب هذا الأسلوب JARs ويقوم بتثبيت حزم Python في وقت بدء التشغيل.

إضافة Java JARs

حدد إحداثيات Maven لتبعيات Java باستخدام السمة spark.jars.packages configuration.

UI (Job & Service)
Helm (Install Time)
Global Default (Cluster Config)

For individual Jobs or Services, you can add packages directly in the موارد التبويب.

Adding Spark Packages in UI

Navigate to وظيفة جديدة أو New Service.
انتقل إلى موارد التبويب.
Scroll to Spark Packages.
نقر Add Parameter and enter the Maven coordinate (e.g., org.apache.hadoop:hadoop-aws:3.3.4).

During the installation process: أضف هذه العلامة إلى أمر تثبيت helm الخاص بك:

helm install ...
  --جبر ilum-core.kubernetes.defaultCluster.config.spark\\.jars\\.packages="org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.8.0,org.apache.hadoop:hadoop-aws:3.3.4"

To define default packages for all jobs on a cluster, set the property in the Cluster Configuration.

Runtime: Set this in the Cluster Configuration form:

Cluster Configuration
  spark.jars.packages: org.apache.iceberg:مثلجة-شراره-وقت التشغيل-3.5_2.12:1.8.0,org.apache.hadoop:hadoop-aws:3.3.4

سيقوم Spark تلقائيا بتنزيل الحزمة المحددة (وتبعياتها) من Maven Central أو المستودع الذي تم تكوينه عند بدء الوظيفة.

تثبيت تبعيات Python في Ilum

يوفر Ilum طرقا متعددة لتثبيت تبعيات Python لمهام Spark وجلسات Jupyter. اعتمادا على حالة الاستخدام الخاصة بك ، يمكنك الاختيار بين:

UI (Job & Service)
Jupyter Session
Global Default (Cluster Config)

Ilum makes it easy to add Python dependencies when creating Spark Jobs or Interactive Services directly from the UI. The process is identical for both.

Adding Python dependencies to Spark Job in Ilum UI

Navigate to وظيفة جديدة أو New Service in the Ilum UI (see Running Spark Jobs).
حدد موقع المتطلبات تحت الحقل موارد التبويب.
أدخل تبعيات Python المطلوبة.

Ilum will install these dependencies at runtime before executing the application.

There are two ways to configure dependencies for Jupyter: per-session or globally for all sessions.

Option A: Per-Session (Session Creation Form)

When creating a Jupyter Notebook session, you can specify required Python packages directly in the session creation form.

شكل شرارة سباركيك جديد

Open the إنشاء جلسة form (e.g., via the النسبة المئوية manage_spark magic command).
حدد موقع باقات إضافية ميدان.
Enter the required packages as a فاصلة منقوطة مفصولة قائمة:
باقات إضافية
```
الباندا; خدر. OpenAI
```
When the session starts, Ilum will automatically install these libraries.

Option B: Global Default for Jupyter (Helm/ConfigMap)

To define default packages for all Jupyter Spark sessions (but not standard Spark jobs):

Install Time:

helm install ...
  --جبر ilum-jupyter.sparkmagic.config.sessionConfigs.conf='{"pyRequirements":"pandas;numpy;openai"}'

Post-Install (ConfigMap): تعديل ilum-jupyter-config configMap:

config.json
بيانات:
  config.json: |
    ...
    {
      "session_configs": {
        "conf": { "pyRequirements": "pandas;numpy;openai", ... }
      }
    }

To define default python packages for ALL Spark applications running on a specific cluster (including Jobs and interactive sessions started by external modules like جوبيتر أو Airflow), you need to add environment variables in the Cluster Configuration.

You need to add two properties with the same list of semicolon-separated packages:

spark.executorEnv.PIP_MODULES
spark.kubernetes.driverEnv.PIP_MODULES

Set PIP_MODULES in cluster config

الخطوات:

الانتقال إلى العناقيد and edit your target cluster (or configured during creation).
انتقل إلى الزر تكوين التبويب.

Add the parameters:

Cluster Parameters
spark.executorEnv.PIP_MODULES=pyspark;pandas;openai
spark.kubernetes.driverEnv.PIP_MODULES=pyspark;pandas;openai

يضمن كل نهج تثبيت وظائف Spark وجلسات Jupyter على التبعيات اللازمة، حتى تتمكن من ذلك ركز على هندسة البيانات وتحليلها بدلا من إدارة البيئات.

أفضل الممارسات

استخدم هذه الطريقة ل الاختبار أو إثبات المفهوم وظائف; تجنبه للإنتاج بسبب النفقات العامة لتبعيات التنزيل في كل تشغيل.
Specify exact versions for packages to ensure reproducibility.
اجمع بين هذا الأسلوب وصور Docker المخصصة للحصول على تناسق أفضل (على سبيل المثال ، استخدم Docker للتبعيات الأساسية و spark.jars.packages لعدد قليل من العابرين إذا لزم الأمر).
ضع في اعتبارك الوصول إلى الشبكة وأدائها ، حيث يمكن أن يؤدي تنزيل الحزم إلى إبطاء أوقات بدء التشغيل.

استكشاف الاخطاء

Common Dependency Issues

أصدر	حل
لم يتم العثور على JAR	Ensure the Maven coordinates (groupId, artifactId, version) are correct.
Startup Performance	If startup is slow or OOMs occur, consider baking dependencies into a Docker image.

3. تثبيت المكتبات في Jupyter Notebooks مع تثبيت النقطة

للتجارب التفاعلية السريعة، يمكنك تثبيت المكتبات داخل دفتر ملاحظات Jupyter باستخدام pip. هذه طريقة سريعة لاختبار شيء ما بطريقة مخصصة ، ولكن لا ينصح بها لأي شيء يتجاوز الاستكشاف المؤقت.

مثل

إذا كنت تقوم بتشغيل جلسة Spark في دفتر ملاحظات Ilum Jupyter وتحتاج إلى حزمة Python جديدة ، فيمكنك تثبيتها على النحو التالي:

notebook.ipynb
%%شراره

استورد العملية الفرعية

# Install package
نتيجة = العملية الفرعية.check_output(["نقطة", "تثبيت", "الجيوبانداس"])
طبع(نتيجة.فك())

# Verify installation
نتيجة = العملية الفرعية.check_output(["نقطة", "قائمة"])
طبع(نتيجة.فك())

سيؤدي هذا إلى تثبيت الحزمة في بيئة الكمبيوتر المحمول حتى تتمكن من استخدامها على الفور.

لماذا لا ينصح به

الحزم المثبتة بهذه الطريقة متاحة فقط في جلسة spark الحالية.
لا تستمر البيئة عبر عمليات إعادة تشغيل الجلسة أو الجلسات الجديدة.
يمكن أن يؤدي إلى عدم الاتساق بين بيئة التطوير الخاصة بك ووقت تشغيل Spark للإنتاج.

أفضل الممارسات

استخدم هذا الأسلوب فقط للنماذج الأولية السريعة التي يتم التخلص منها.
إذا وجدت نفسك تعتمد على مكتبة مثبتة بنقطة ، فقم بإضافتها إلى ملف المتطلبات أو صورة Docker للاستمرار.
قم بتوثيق أي حزم كان عليك تثبيتها في دفتر الملاحظات حتى تتمكن من تحديث بيئتك بشكل صحيح لاحقا.

استكشاف الاخطاء

Pip Install Issues

أصدر	حل
لم يتم العثور على الباقة	Check spelling and availability on PyPI.
Module not found	Try restarting the notebook kernel to reload the environment.

Frequently Asked Questions (FAQ)

How do I install private Python packages in Spark?

You can install private packages by building a Custom Docker Image (Method 1). During the docker build process, you can pass credentials or use a pip configuration file to authenticate with your private PyPI repository. Alternatively, for runtime injection, you may need to configure a custom pip index URL in your environment, but Docker is more secure for handling credentials.

Should I use Docker or runtime requirements for Spark on Kubernetes?

من أجل إنتاج, always use a Docker image. It guarantees that every node (driver and executors) has the exact same environment without the latency and failure risk of installing packages at runtime. Use runtime requirements only for development, testing, or very small, non-critical libraries.

How to add JDBC drivers to Ilum Spark jobs?

JDBC drivers (like PostgreSQL, MySQL, or Snowflake) are best added as JARs. You can either:

Add the JAR to your Docker image (e.g., in $SPARK_HOME/jars).
استخدام spark.jars.packages (Method 2) to fetch them from Maven Central at runtime (e.g., org.postgresql:postgresql:42.6.0).

التوصيات النهائية

أحمال عمل الإنتاج: استخدم صورة Docker المخصصة مع تثبيت جميع التبعيات مسبقا. ينتج عن ذلك بيئة مستقرة وقابلة للتكرار مع أوقات بدء تشغيل أسرع.
الاختبار أو النماذج الأولية: استخدام spark.jars.packages و pyrequirements.txt للمرونة. يتيح لك ذلك التجربة بسرعة دون إنشاء صورة جديدة ، على الرغم من أنها قد تتحمل نفقات بدء التشغيل.
التجارب التفاعلية: يعد التثبيت عبر دفاتر ملاحظات Jupyter مناسبا للتجارب قصيرة العمر ، ولكن دائما ما تنتقل إلى حل أكثر قوة (صورة Docker أو ملف المتطلبات) لأي شيء يحتاج إلى حفظ أو تشغيله مرة أخرى.

باتباع هذه الممارسات، يمكنك إدارة تبعيات Spark بكفاءة في Ilum مع تقليل مشكلات التوافق وأخطاء وقت التشغيل.

Comparison of Dependency Management Methods​

1. Dedicated Docker Image (Production Best Practice)​

خطوات إنشاء صورة شرارة مخصصة​

مثال: إضافة دعم Apache Iceberg​

بناء الصورة ودفعها​

تكوين Ilum لاستخدام الصورة المخصصة​

أفضل الممارسات​

استكشاف الاخطاء​

2. Runtime Injection (Spark Packages & PyPI)​

إضافة Java JARs​

تثبيت تبعيات Python في Ilum​

أفضل الممارسات​

استكشاف الاخطاء​

3. تثبيت المكتبات في Jupyter Notebooks مع تثبيت النقطة​

مثل​

لماذا لا ينصح به​

أفضل الممارسات​

استكشاف الاخطاء​

Frequently Asked Questions (FAQ)​

التوصيات النهائية​

Comparison of Dependency Management Methods

1. Dedicated Docker Image (Production Best Practice)

خطوات إنشاء صورة شرارة مخصصة

مثال: إضافة دعم Apache Iceberg

بناء الصورة ودفعها

تكوين Ilum لاستخدام الصورة المخصصة

أفضل الممارسات

استكشاف الاخطاء

2. Runtime Injection (Spark Packages & PyPI)

إضافة Java JARs

تثبيت تبعيات Python في Ilum

أفضل الممارسات

استكشاف الاخطاء

3. تثبيت المكتبات في Jupyter Notebooks مع تثبيت النقطة

مثل

لماذا لا ينصح به

أفضل الممارسات

استكشاف الاخطاء

Frequently Asked Questions (FAQ)

التوصيات النهائية