التخطّي إلى المحتوى الرئيسي
الانتقال إلى لوحة البيانات
ألا تعرف من أين تبدأ؟ يمكنك إجراء اختبار قصير للحصول على اقتراحات مخصّصة.
Welcome to the Google News Initiative
The Google News Initiative works with publishers and journalists to fight misinformation, share resources, and build a diverse and innovative news ecosystem.
الدرس 4 من إجمالي 7
تجهيز البيانات
Hands-on Machine Learning
ما هو التعلم الآلي؟
Google Cloud AutoML Vision
check_box_outline_blank Hands-on Machine Learning: Take the Quiz
دورة تدريبية
0% مكتمل
5 دقيقة دروس مطلوب إكمالها

تجهيز البيانات

image12_3.png
قم بتقييم حالة الاستخدام الخاصة بك والتعرف على مصادر بياناتك وتجهيزها.
image12_3.png

ما هي بيانات التدريب؟

image12_3_zA6aI42.png

إذا قمت بإعداد حساب Google Cloud بشكل صحيح، فأنت الآن جاهز للتمرين. في هذا الدرس، ستتعرف على الأسئلة التي يجب أن تطرحها أثناء جمع بيانات التدريب وكيفية تجهيزها لاستخدامها بواسطة أداة AutoML Vision.

ما نعنيه ببيانات التدريب هو أمثلة لما نريد أن يكون نموذج التعلم الآلي (ML) الخاص بنا قادرًا على التعرف عليه وتصنيفه. في حالتنا هذه، فإن هذا يعني توفير مجموعة من صور الأقمار الصناعية، وإخبار الخوارزمية أي هذه الصور يُعد بمثابة أمثلة على تعدين الكهرمان وأيها ليس كذلك.

image12_3_zA6aI42.png

ابدأ بحالة الاستخدام الخاصة بك

image40_2.png

أثناء تجميع مجموعة البيانات، ابدأ دائمًا بالمشكلة التي تطلب من نموذج التعلم الآلي (ML) مساعدتك في حلها. ضع في اعتبارك الأسئلة التالية:

ما هي النتيجة التي تحاول تحقيقها؟
ما هي أنواع الفئات التي تحتاج إلى التعرف عليها لتحقيق هذه النتيجة؟
هل يمكن للبشر التعرف على تلك الفئات؟ رغم أن أداة AutoML Vision يمكنها التعامل مع عدد صور وفئات أكثر مما يستطيع البشر التعامل معه، ولكن إذا لم يتمكن الإنسان من التعرف على فئة معينة، فإن أداة AutoML Vision ستواجه صعوبة في ذلك أيضًا.
ما هي أفضل أنواع الأمثلة التي تعكس نوع ونطاق البيانات التي سيصنفها نظامك؟

على سبيل المثال، فكِّر في قصة تعمل عليها. كيف تغير الإجابات على هذه الأسئلة نهجك في التعامل مع القصة وما إذا كنت بحاجة إلى التعلم الآلي (ML) من أجلها؟

image40_2.png

قيِّم حالة الاستخدام الخاصة بك

image5_3.png

 في حالتنا هذه، قد تكون هذه إجاباتنا:

  1. نريد أن يكون نموذجنا قادرًا على التعرف على حالات أنشطة تعدين الكهرمان في صور الأقمار الصناعية التي سنقدمها إليه.
  2. وهنا نحتاج فقط إلى فئتين: "نعم: تتضمن هذه الصورة عناصر متسقة مع الأنماط التي تُظهر عادةً نشاطًا لتعدين الكهرمان" و "لا: لا تتضمن هذه الصورة عناصر تشير إلى وجود نشاط لتعدين الكهرمان".
  3. في الغالب "نعم": حالات أنشطة تعدين الكهرمان يمكن التعرف عليها إلى حد بعيد في صور الأقمار الصناعية نظرًا للنمط المُميَّز لها الذي يُشبه الفتحات في الأرض. ولكننا سنرى في مرحلة الاختبار أن ذلك قد لا يكون دائمًا بالسهولة التي نعتقدها.
  4. خلفية مختلفة، وكثافة مختلفة للفتحات، وألوان مختلفة. كلما زاد تنوع الأمثلة في مجموعة البيانات الخاصة بنا، كلما تعلَّمت الخوارزمية بشكل أفضل.
image5_3.png

مصدر بياناتك

image17_3.png

بمجرد تحديد البيانات التي تحتاجها، فإن الخطوة التالية هي إيجاد طريقة للوصول إلى مصدر الحصول عليها. في حالتنا هذه، لدينا بالفعل مجموعة البيانات المُقدَّمة من وكالة Texty. ولكن فكِّر أين تجد مصادر بيانات حالة الاستخدام الخاصة بك: كيف وأين يمكنك العثور على الصور التي تحتاجها؟

قد تتمكن من الحصول عليها مما تجمعه مؤسستك من بيانات أو من جهات خارجية. في كلتا الحالتين، احرص على مراجعة اللوائح المُتعلقة بحماية البيانات في منطقتك والمواقع التي سيخدمها تطبيقك.

لن تكون أي بيانات تدريبية "غير متحيزة" تمامًا، ولكن يمكنك تحسين فرصك في بناء نموذج تعلم آلي (ML) "عادل" إذا نظرت بعناية في المصادر المحتملة للتحيز في بياناتك واتخذت خطوات لمعالجتها. راجع دورة Introduction to Machine Learning  "مقدمة في التعلم الآلي" لمعرفة المزيد حول ذلك.

image17_3.png

جهِّز بياناتك

image50_2.png

هناك بعض الأشياء التي يجب وضعها في الاعتبار عند تجميع بيانات التدريب:

قم بتضمين ما يكفي من الأمثلة المُصنَّفة في كل فئة: الحد الأدنى المطلوب بواسطة أداة AutoML Vision هو 100 مثال لكل تصنيف. بشكل عام، كلما زاد عدد الصور المُصنَّفة التي يمكنك إحضارها إلى عملية التدريب، كان نموذجك أفضل.

من المهم تضمين كميات متشابهة تقريبًا من أمثلة التدريب لكل فئة. وإذا كانت لديك وفرة في البيانات لتصنيف واحد، فاستخدم جزءًا منها فقط لتجنب وجود كمية واسعة التنوع من الأمثلة لكل فئة.

ابحث عن الصور التي تشبه من الناحية البصرية ما تُخطط لتطلب من النموذج تصنيفها. من الناحية المثالية، فإن أمثلة التدريب الخاصة بك هي بيانات واقعية مُستمدة من نفس مجموعة البيانات التي تُخطِّط لاستخدام النموذج لتصنيفها.

image50_2.png
Leave and lose progress?
By leaving this page you will lose all progress on your current lesson. Are you sure you want to continue and lose your progress?