تجهيز البيانات
قم بتقييم حالة الاستخدام الخاصة بك والتعرف على مصادر بياناتك وتجهيزها.
ما هي بيانات التدريب؟
إذا قمت بإعداد حساب Google Cloud بشكل صحيح، فأنت الآن جاهز للتمرين. في هذا الدرس، ستتعرف على الأسئلة التي يجب أن تطرحها أثناء جمع بيانات التدريب وكيفية تجهيزها لاستخدامها بواسطة أداة AutoML Vision.
ما نعنيه ببيانات التدريب هو أمثلة لما نريد أن يكون نموذج التعلم الآلي (ML) الخاص بنا قادرًا على التعرف عليه وتصنيفه. في حالتنا هذه، فإن هذا يعني توفير مجموعة من صور الأقمار الصناعية، وإخبار الخوارزمية أي هذه الصور يُعد بمثابة أمثلة على تعدين الكهرمان وأيها ليس كذلك.
ابدأ بحالة الاستخدام الخاصة بك
أثناء تجميع مجموعة البيانات، ابدأ دائمًا بالمشكلة التي تطلب من نموذج التعلم الآلي (ML) مساعدتك في حلها. ضع في اعتبارك الأسئلة التالية:
- ما هي النتيجة التي تحاول تحقيقها؟
- ما هي أنواع الفئات التي تحتاج إلى التعرف عليها لتحقيق هذه النتيجة؟
- هل يمكن للبشر التعرف على تلك الفئات؟ رغم أن أداة AutoML Vision يمكنها التعامل مع عدد صور وفئات أكثر مما يستطيع البشر التعامل معه، ولكن إذا لم يتمكن الإنسان من التعرف على فئة معينة، فإن أداة AutoML Vision ستواجه صعوبة في ذلك أيضًا.
- ما هي أفضل أنواع الأمثلة التي تعكس نوع ونطاق البيانات التي سيصنفها نظامك؟
على سبيل المثال، فكِّر في قصة تعمل عليها. كيف تغير الإجابات على هذه الأسئلة نهجك في التعامل مع القصة وما إذا كنت بحاجة إلى التعلم الآلي (ML) من أجلها؟
قيِّم حالة الاستخدام الخاصة بك
في حالتنا هذه، قد تكون هذه إجاباتنا:
- نريد أن يكون نموذجنا قادرًا على التعرف على حالات أنشطة تعدين الكهرمان في صور الأقمار الصناعية التي سنقدمها إليه.
- وهنا نحتاج فقط إلى فئتين: "نعم: تتضمن هذه الصورة عناصر متسقة مع الأنماط التي تُظهر عادةً نشاطًا لتعدين الكهرمان" و "لا: لا تتضمن هذه الصورة عناصر تشير إلى وجود نشاط لتعدين الكهرمان".
- في الغالب "نعم": حالات أنشطة تعدين الكهرمان يمكن التعرف عليها إلى حد بعيد في صور الأقمار الصناعية نظرًا للنمط المُميَّز لها الذي يُشبه الفتحات في الأرض. ولكننا سنرى في مرحلة الاختبار أن ذلك قد لا يكون دائمًا بالسهولة التي نعتقدها.
- خلفية مختلفة، وكثافة مختلفة للفتحات، وألوان مختلفة. كلما زاد تنوع الأمثلة في مجموعة البيانات الخاصة بنا، كلما تعلَّمت الخوارزمية بشكل أفضل.
مصدر بياناتك
بمجرد تحديد البيانات التي تحتاجها، فإن الخطوة التالية هي إيجاد طريقة للوصول إلى مصدر الحصول عليها. في حالتنا هذه، لدينا بالفعل مجموعة البيانات المُقدَّمة من وكالة Texty. ولكن فكِّر أين تجد مصادر بيانات حالة الاستخدام الخاصة بك: كيف وأين يمكنك العثور على الصور التي تحتاجها؟
قد تتمكن من الحصول عليها مما تجمعه مؤسستك من بيانات أو من جهات خارجية. في كلتا الحالتين، احرص على مراجعة اللوائح المُتعلقة بحماية البيانات في منطقتك والمواقع التي سيخدمها تطبيقك.
لن تكون أي بيانات تدريبية "غير متحيزة" تمامًا، ولكن يمكنك تحسين فرصك في بناء نموذج تعلم آلي (ML) "عادل" إذا نظرت بعناية في المصادر المحتملة للتحيز في بياناتك واتخذت خطوات لمعالجتها. راجع دورة Introduction to Machine Learning "مقدمة في التعلم الآلي" لمعرفة المزيد حول ذلك.
جهِّز بياناتك
هناك بعض الأشياء التي يجب وضعها في الاعتبار عند تجميع بيانات التدريب:
قم بتضمين ما يكفي من الأمثلة المُصنَّفة في كل فئة: الحد الأدنى المطلوب بواسطة أداة AutoML Vision هو 100 مثال لكل تصنيف. بشكل عام، كلما زاد عدد الصور المُصنَّفة التي يمكنك إحضارها إلى عملية التدريب، كان نموذجك أفضل.
من المهم تضمين كميات متشابهة تقريبًا من أمثلة التدريب لكل فئة. وإذا كانت لديك وفرة في البيانات لتصنيف واحد، فاستخدم جزءًا منها فقط لتجنب وجود كمية واسعة التنوع من الأمثلة لكل فئة.
ابحث عن الصور التي تشبه من الناحية البصرية ما تُخطط لتطلب من النموذج تصنيفها. من الناحية المثالية، فإن أمثلة التدريب الخاصة بك هي بيانات واقعية مُستمدة من نفس مجموعة البيانات التي تُخطِّط لاستخدام النموذج لتصنيفها.
-
What are Web Stories?
الدرسHow the easy-to-use vertical video format is changing the face of digital storytelling and driving the connection between content makers and their fans. -
فيديو: بدء استخدام "مؤشرات Google"
الدرسيتيح لك تطبيق "مؤشرات Google" الاطّلاع على عيّنة من طلبات البحث حسب الموضوع والفترة الزمنية. -