كتالوجات البيانات
Catalogs provide persistent metadata layers that allow Spark to store, retrieve, and organize table definitions across sessions and jobs. Ilum supports multiple catalog options—Hive, Nessie, and Unity Catalog—each integrated with Spark workloads, data storage, and session management, enabling reliable and collaborative data workflows.
الكتالوجات المدعومة
كتالوج الخلية (افتراضي)
- كتالوج الخلية يستفيد من Apache Hive Metastore لتخزين بيانات تعريف الجدول باستمرار.
- إنه من دواعي سروري ممكن افتراضيا في Ilum وتستخدم تلقائيا لجميع عمليات Spark SQL.
- لا يلزم إعداد إضافي - يقوم Ilum بتكوين Hive Metastore ودمجه مع Spark والتخزين وواجهة مستخدم Table Explorer.
- مثالي لسيناريوهات بحيرة البيانات الكلاسيكية حيث تكون متانة بيانات التعريف واكتشاف المخطط والتوافق مع أدوات مثل Trino أو Hive أو Superset أمرا بالغ الأهمية.
كتالوج Nessie (اختياري)
- كتالوج نيسي يدمج مشروع نيسي تمكين التحكم في الإصدار الشبيه ب Git لمستودع البيانات الخاص بك.
- يسمح لك بذلك فرع , العلامه و دمج التغييرات في كتالوج البيانات الخاص بك ، مما يؤدي إلى جلب مهام سير العمل التعاونية والقابلة للتدقيق إلى جداولك.
- نيسي هو اختياري في Ilum ويتطلب إعدادا إضافيا. بمجرد تكوينه ، يتكامل مع Spark عبر Apache Iceberg.
- الأنسب للتحليلات ذات الإصدارات وتجريب البيانات ومسارات CI/CD والسيناريوهات التي تحتاج إلى التراجع الكامل على مستوى الكتالوج أو البيئات المعزولة.
Unity Catalog (Optional)
- Unity Catalog OSS is an open-source data catalog for lakehouse architectures, providing a unified metadata layer with built-in governance features.
- It uses a three-level namespace (catalog → schema → table) for better data organization and provides comprehensive audit logging and data lineage.
- Unity Catalog is اختياري in Ilum and requires configuration. It offers fine-grained access control and centralized governance across workspaces.
- ⚠️ Known Limitation: Unity Catalog OSS currently has compatibility issues with MinIO. For production use, AWS S3, GCS, or ADLS are recommended.
- Best suited for organizations needing centralized governance, detailed audit trails, and fine-grained access control for their data lakehouse.
مقارنة الميزات
| الميزة / الجانب | كتالوج الخلية (افتراضي) | كتالوج Nessie (اختياري) | Unity Catalog (Optional) |
|---|---|---|---|
| استمرار | نعم - بيانات تعريف الجدول المخزنة في Hive Metastore | نعم - بيانات التعريف التي تم إصدارها عبر خدمة Nessie | Yes – metadata stored in Unity Catalog metastore |
| التحكم في الإصدار | لا | نعم - يدعم الفروع والعلامات والدمج | No – rely on table format features |
| المعاملات متعددة الجداول | لا | نعم - التغيرات الذرية عبر جداول متعددة | لا |
| ممكن افتراضيا | نعم | لا (اختياري، يجب تكوينه يدويا) | لا (اختياري، يجب تكوينه يدويا) |
| دعم التنسيق | باركيه ، ORC ، دلتا ، جبل آيس بيرج (عبر كتالوجات خارجية) | مثلجة | Iceberg, Delta Lake, Parquet |
| MinIO Support | ✅ Yes | ✅ Yes | ⚠️ Limited (known compatibility issues) |
| أفضل ل | مخططات مستقرة ، تحليلات SQL ، بحيرة البيانات التقليدية | الفروع التجريبية والحوكمة وسير عمل ترويج البيانات | Centralized governance, audit trails, multi-workspace control |
| التوافق | مدعوم على نطاق واسع من قبل Spark و Hive و Trino و Superset وما إلى ذلك. | مدعوم في Spark و Flink و Trino | Supported in Spark, Delta Lake, various cloud platforms |
| الاندماج في إيلوم | مؤتمتة بالكامل ومهيأة جاهزة | يتطلب خدمة Nessie خارجية وتكوين Spark | Requires Unity Catalog service and Spark config |
دليل اختيار الكتالوج
| حالة الاستخدام | كتالوج الخلية | كتالوج نيسي | كتالوج الوحدة |
|---|---|---|---|
| تخزين الطاولة على المدى الطويل | ✅ | ✅ | ✅ |
| تفرع / وضع علامات على البيانات الشبيهة ب Git | ✅ | ||
| مسارات المعاملات متعددة الجداول | ✅ | ||
| تحليلات SQL التقليدية + BI | ✅ | ✅ | |
| تطوير → التدريج → مهام سير عمل Prod | ✅ | ✅ | |
| قابلية التدقيق والتراجع | ✅ | ✅ | |
| سهولة التوافق مع Trino / Superset | ✅ | (غير مباشر) | (غير مباشر) |
كيف تعمل الكتالوجات في إيلوم
- كتالوج الخلية مدمج مباشرة في Ilum Core. يأتي مزودا ب Hive Metastore تم نشره مسبقا ومتصل بتخزين Ilum الافتراضي (على سبيل المثال ، MinIO أو S3).
- كتالوج نيسي تم تكوينه من قبل المستخدم. يجب عليك نشر خدمة Nessie وتكوين جلسات Spark الخاصة بك للاتصال بها باستخدام خصائص كتالوج Iceberg.
- كتالوج الوحدة is user-configured. You must enable the Unity Catalog service via Helm and configure your metastore type. Note the MinIO compatibility limitation for production deployments.
- Table Explorer in Ilum automatically lists Hive tables. Nessie and Unity Catalog tables can also be made visible with proper catalog configuration in Spark jobs.
للحصول على تفاصيل حول نشر المكونات الاختيارية وتمكينها مثل Nessie، تفضل بزيارة:
👉 دليل نشر Ilum