أداة Talend ETL - Talend Open Studio لمعالجة البيانات

تتحدث هذه المدونة على أداة Talend ETL عن أداة ETL مفتوحة المصدر - Talend for Data Integration ، والتي توفر واجهة مستخدم رسومية سهلة الاستخدام لأداء عملية ETL.

من المؤكد أن التعامل مع البيانات غير المتجانسة مهمة شاقة ، ولكن مع زيادة حجم البيانات ، فإنها تصبح أكثر إرهاقًا. هذا هو المكان الذي تساعد فيه أدوات ETL في تحويل هذه البيانات إلى بيانات متجانسة. الآن ، من السهل تحليل هذه البيانات المحولة واستخلاص المعلومات اللازمة منها. في هذه المدونة على Talend ETL ، سأتحدث عن كيفية عمل Talend بشكل استثنائي كأداة ETL لتسخير رؤى قيمة من البيانات الكبيرة.



في مدونة Talend ETL هذه ، سأناقش الموضوعات التالية:



يمكنك أيضًا الاطلاع على فيديو تعليمي مفصل حيث لدينا يشرح الخبير Talend ETL ومعالجة البيانات معها بطريقة مفصلة مع أمثلة واضحة.

برنامج Talend ETL التعليمي | تالند اون لاين للتدريب | إدوريكا

ما هي عملية ETL؟



ETL تعني استخراج وتحويل وتحميل. يشير إلى ثلاث عمليات مطلوبة لنقل البيانات الأولية من مصدرها إلى مستودع بيانات أو قاعدة بيانات. اسمحوا لي أن أشرح بالتفصيل كل من هذه العمليات:

  1. استخراج

    يعد استخراج البيانات أهم خطوة في ETL والتي تتضمن الوصول إلى البيانات من جميع أنظمة التخزين. يمكن أن تكون أنظمة التخزين هي RDBMS ، ملفات Excel ، ملفات XML ، الملفات المسطحة ، ISAM (طريقة الوصول المتسلسل المفهرس) ، قواعد البيانات الهرمية (IMS) ، المعلومات المرئية وما إلى ذلك ، كونها الخطوة الأكثر أهمية ، يجب تصميمها بهذه الطريقة أنه لا يؤثر سلبًا على أنظمة المصدر. تضمن عملية الاستخراج أيضًا تحديد معلمات كل عنصر بشكل مميز بغض النظر عن نظام المصدر الخاص به.

  2. تحول

    التحول هو العملية التالية في خط الأنابيب. في هذه الخطوة ، يتم تحليل البيانات بالكامل وتطبيق وظائف مختلفة عليها لتحويلها إلى التنسيق المطلوب. بشكل عام ، العمليات المستخدمة لتحويل البيانات هي التحويل والتصفية والفرز والتوحيد القياسي ومسح التكرارات والترجمة والتحقق من اتساق مصادر البيانات المختلفة.

  3. حمل

    التحميل هو المرحلة الأخيرة من عملية ETL. في هذه الخطوة ، يتم بعد ذلك تحميل البيانات المعالجة ، أي البيانات المستخرجة والمحولة ، إلى مستودع البيانات الهدف الذي يكون عادةً قواعد البيانات. أثناء تنفيذ هذه الخطوة ، يجب التأكد من أن وظيفة التحميل يتم تنفيذها بدقة ، ولكن من خلال استخدام الحد الأدنى من الموارد. أيضًا ، أثناء التحميل ، يجب عليك الحفاظ على التكامل المرجعي حتى لا تفقد تناسق البيانات. بمجرد تحميل البيانات ، يمكنك التقاط أي جزء من البيانات ومقارنتها بأجزاء أخرى بسهولة.

عملية ETL - Talent ETL - Edureka



ما هو التسلسل في جافا

الآن بعد أن تعرفت على عملية ETL ، قد تتساءل عن كيفية إجراء كل ذلك؟ حسنًا ، الإجابة بسيطة باستخدام أدوات ETL. في القسم التالي من مدونة Talend ETL هذه ، سأتحدث عن مختلف أدوات ETL المتاحة.

أدوات ETL المختلفة

ولكن قبل أن أتحدث عن أدوات ETL ، دعنا أولاً نفهم ما هي أداة ETL بالضبط.

كما سبق أن ناقشت ، ETL هي ثلاث عمليات منفصلة تؤدي وظائف مختلفة. عندما يتم دمج كل هذه العمليات معًا في ملف أداة برمجة واحدة والتي يمكن أن تساعد في إعداد البيانات وإدارة قواعد البيانات المختلفة.تحتوي هذه الأدوات على واجهات رسومية باستخدام مما يؤدي إلى تسريع العملية الكاملة لتعيين الجداول والأعمدة بين قواعد البيانات المختلفة المصدر والهدف.

بعض الفوائد الرئيسية لأدوات ETL هي:

  • انه جدا سهل الاستخدام لأنه يلغي الحاجة إلى كتابة الإجراءات والكود.
  • نظرًا لأن أدوات ETL تعتمد على واجهة المستخدم الرسومية ، فإنها توفر ملف التدفق البصري من منطق النظام.
  • تحتوي أدوات ETL على وظيفة مضمنة لمعالجة الأخطاء بسبب وجودها المرونة التشغيلية .
  • عند التعامل مع البيانات الكبيرة والمعقدة ، توفر أدوات ETL ملف إدارة أفضل للبيانات من خلال تبسيط المهام ومساعدتك في الوظائف المختلفة.
  • توفر أدوات ETL مجموعة متقدمة من وظائف التطهير مقارنة بالأنظمة التقليدية.
  • أدوات ETL لها امتداد تحسين ذكاء الأعمال التي تؤثر بشكل مباشر على القرارات الاستراتيجية والتشغيلية.
  • بسبب استخدام أدوات ETL ، فإن يقلل من النفقات بالكثير والشركات قادرة على تحقيق إيرادات أعلى.
  • أداء من أدوات ETL أفضل بكثير حيث أن هيكل منصتها يبسط بناء نظام تخزين بيانات عالي الجودة.

هناك العديد من أدوات ETL المتوفرة في السوق ، والتي يتم استخدامها بشكل شائع. ومنهم:

من بين كل هذه الأدوات ، في مدونة Talend ETL هذه ، سأتحدث عن كيفية استخدام Talend كأداة ETL.

أداة Talend ETL

يعد Talend open studio لتكامل البيانات أحد أقوى أدوات ETL لتكامل البيانات المتوفرة في السوق. يتيح لك TOS إدارة جميع الخطوات المتضمنة في عملية ETL بسهولة ، بدءًا من تصميم ETL الأولي حتى تنفيذ تحميل بيانات ETL. تم تطوير هذه الأداة في بيئة التطوير الرسومية Eclipse. يوفر لك Talend open studio البيئة الرسومية التي يمكنك من خلالها بسهولة تعيين البيانات بين المصدر إلى نظام الوجهة. كل ما عليك فعله هو سحب المكونات المطلوبة وإفلاتها من اللوحة في مساحة العمل ، وتكوينها ثم توصيلها معًا في النهاية. حتى أنه يوفر لك مستودعًا للبيانات الوصفية حيث يمكنك بسهولة إعادة استخدام عملك وإعادة استخدامه. سيساعدك هذا بالتأكيد على زيادة كفاءتك وإنتاجيتك بمرور الوقت.

العلاقة بين جافا وجافا سكريبت

مع هذا ، يمكنك أن تستنتج أن Talend open studio for DI يوفر تكاملًا مرتجلًا للبيانات جنبًا إلى جنب مع اتصال قوي وإمكانية التكيف بسهولة وتدفق سلس لعملية الاستخراج والتحويل.

في القسم التالي من مدونة Talend ETL هذه ، دعنا نرى كيف يمكنك أداء عملية ETL في Talend.

Talend Open Studio: تشغيل وظيفة ETL

لإثبات عملية ETL ، سوف أقوم باستخراج البيانات من ملف Excel وتحويلها عن طريق تطبيق مرشحإلىالبيانات ثم تحميل البيانات الجديدة في قاعدة بيانات. فيما يلي تنسيق مجموعة بيانات Excel الخاصة بي:

من مجموعة البيانات هذه ، سأقوم بتصفية صفوف البيانات بناءً على نوع العميل وتخزين كل منها في جدول قاعدة بيانات مختلف. للقيام بذلك ، اتبع الخطوات التالية:

الخطوة 1: قم بإنشاء وظيفة جديدة ومن اللوحة ، اسحب المكونات التالية وأفلتها:
  1. اتصال tMysql
  2. tFileExcelInput
  3. تكرر
  4. ( tFilterRow ) X4
  5. ( المخرجات ) X4

الخطوة 2: قم بتوصيل المكونات معًا كما هو موضح أدناه:

الخطوه 3: انتقل إلى علامة تبويب المكون في tMysqlConnection ومن 'نوع الخاصية' حدد نوع الاتصال الذي تستخدمه مضمنًا أو مستودعًا. إذا كنت تستخدم اتصالاً مدمجًا ، فعليك تحديد التفاصيل التالية:
  1. مضيف
  2. ميناء
  3. قاعدة البيانات
  4. اسم المستخدم
  5. كلمه السر

ولكن إذا كنت تستخدم اتصال المستودع ، فسوف يلتقط التفاصيل افتراضيًا من المستودع.

الخطوة الرابعة: انقر نقرًا مزدوجًا فوق tFileInputExcel وفي علامة تبويب المكونات الخاصة به ، حدد مسار ملف المصدر الخاص بك ، وعدد الصفوف المستخدمة للرأس في حقل 'الرأس' ورقم العمود الذي يجب أن يبدأ منه Talend قراءة بياناتك في 'العمود الأول' ' حقل. في 'تحرير المخطط' ، صمم المخطط وفقًا لملف مجموعة البيانات.

نوع بيانات تاريخ خادم SQL

الخطوة 5 :في علامة تبويب مكون tReplicate ، انقر على 'مزامنة الأعمدة'.

الخطوة 6: انتقل إلى علامة تبويب المكون لأول tFilterRow وتحقق من المخطط. وفقًا لحالتك ، يمكنك تحديد العمود (الأعمدة) وتحديد الوظيفة والمشغل والقيمة التي يجب تصفية البيانات بناءً عليها.

الخطوة 7: كرر الأمر نفسه لجميع مكونات tFilterRow.

الخطوة الثامنة: أخيرًا ، في علامة تبويب مكون tMysqlOutput ، حدد علامة الاختيار على 'استخدام اتصال موجود'. ثم حدد اسم الجدول في حقل 'الجدول' وحدد 'الإجراء على الجدول' و 'الإجراء على البيانات' وفقًا للمتطلبات.

الخطوة 9: كرر الأمر نفسه لجميع مكونات tMysqlOutput.

الخطوة 10: بمجرد الانتهاء من ذلك ، انتقل إلى علامة التبويب 'تشغيل' وقم بتنفيذ المهمة.

هذا يقودنا إلى نهاية هذه المدونة على Talend ETL. أود أن أختتم هذه المدونة بفكرة بسيطة يجب عليك اتباعها:

'المستقبل ملك لأولئك الذين يمكنهم التحكم في بياناتهم'

إذا وجدت هذا Talend ETL مدونة ، ذات صلة ، تفحص ال من Edureka ، وهي شركة تعليمية موثوقة عبر الإنترنت مع شبكة تضم أكثر من 250000 متعلم راضٍ منتشرين في جميع أنحاء العالم. تساعدك الدورة التدريبية Edureka Talend for DI و Big Data Certification على إتقان منصة Talend و Big Data Integration ودمج جميع بياناتك بسهولة مع مستودع البيانات والتطبيقات ، أو مزامنة البيانات بين الأنظمة. لديك سؤال لنا؟ يرجى ذكر ذلك في قسم التعليقات وسنعاود الاتصال بك.