7 में से 4 लेसन

आंकड़ों की तैयारी

5 मिनट इन लेसन को पूरा करना बाकी है

आंकड़ों की तैयारी

अपने मामले, स्रोत तक पहुँच बनायें और अपने आंकड़े तैयार करें

प्रशिक्षण आंकड़े क्या होते हैं?

यदि आपने अपना Google Cloud खाता ठीक से व्यवस्थित किया है, तो अब आप अभ्यास करने के लिए तैयार हैं। इस पाठ में, आप सीखेंगे कि प्रशिक्षण आंकड़ें एकत्रित करते समय कौन से प्रश्न पूछे जा सकते हैं और उन्हें AutoML Vision द्वारा प्रयोग करने के लिए कैसे तैयार करें।

प्रशिक्षण आंकड़ों से हमारा तात्पर्य उन उदाहरणों से है जो हम ML मॉडल द्वारा पहचान और वर्गीकरण कर सकने में सक्षम होने के लिए चाहते हैं। हमारे मामले में, इसका अर्थ सेटलाइट चित्रों का एक संग्रह प्रदान करना और एल्गोरिद्म को बताना है कि एंबर खनन के उदाहरण कौन से हैं और कौन से नहीं हैं।

अपने मामले से प्रारम्भ करें

डैटा-संग्रह का एकत्रीकरण करते समय, सदैव उस समस्या से प्रारम्भ करें जिसेे आप ML की सहायता से हल करना चाह रहे हैं। निम्न प्रश्नों पर विचार करें :

आप किस परिणाम को प्राप्त करने का प्रयास कर रहे हैं?
वह कौन सी श्रेणियां है जिन्हें इस परिणाम प्राप्ति हेतु आपको पहचानना होगा?
क्या मनुष्यों द्वारा इन श्रेणियों को पहचानना संभव है? यद्यपि मनुष्यों की तुलना में AutoML Vision कहीं अधिक चित्रों और श्रेणियों का नियंत्रण कर सकता है, परन्तु यदि कोई मनुष्य किसी विशिष्ट श्रेणी को नहीं पहचान सकता है तो AutoML Vision को भी अत्यंत कठिनाई होगी।
ऐसे कौन से उदाहरण हो सकते हैं जो आपके सिस्टम द्वारा आंकड़ों की प्रकार और रेंज के वर्गिकरण को अत्यंत अच्छी तरह से दर्शायेंगे?

उस लेख के बारे में सोचें जिस पर आप कार्य कर रहे हैं। लेख के प्रति उन प्रश्नों के उत्तर आपका दृष्‍टिकोण कैसे बदलते हैं और क्या इसके लिए आपको मशीन लर्निंग की आवश्यकता होगी?

अपने मामले का आंकलन करें

हमारे मामले में निम्न उत्तर हो सकते हैं :

हम चाहते हैं कि हमारा मॉडल हमारे द्वारा इसे प्रस्तुत किए जाने वाले ऐंबर खनन की घटनाओं के सेटलाइट चित्रों को पहचान सके।
हमें केवल दो श्रेणियां चाहिये : “हाँ : इस चित्र में आमतौर पर ऐंबर खनन गतिविधि दर्शाती आकृतियों के अनुकूल दृष्टिगत तत्व सम्मिलित हैं" और “नहीं : इस चित्र में ऐंबर खनन गतिविधिें दर्शाते दृष्टिगत तत्व सम्मिलित नहीं हैं"।
अधिकतर हां : धरातल पर विशिष्ट फुंसी जैसे छिद्रों के पैटर्न होने के कारण सेटलाइट चित्रों में ऐंबर खनन की घटनायें ठीक से पहचानी जा सकती हैं। परन्तु परीक्षण अवस्था के दौरान ऐसा हो सकता है कि यह हमारी अपेक्षानुसार सरलता से सदैव कार्य नहीं करे।
भिन्न पृष्ठभूमि, छिद्रों की भिन्न सघनता, भिन्न रंग। हमारे आंकड़ों के संग्रह में जितने अधिक भिन्न उदाहरण होंगे, हम उतना ही बेहतर एल्गोरिद्म सीखेंगे।

अपने आंकड़ें जुटाएँ

आपके द्वारा वांछित आंकड़ें निर्धारित करने के पश्चात अगले चरण में उन्हें जुटाने का तरीका निर्धारित करना होता है। हमारे मामले में, हमारे पास पहले से ही Texty द्वारा प्रस्तुत आंकड़ों का संग्रह है। परन्तु विचार करें कि आपका स्वयं का मामला कैसा हो सकता है : आपके द्वारा वांछित चित्रों को आप कैसे और कहां ढूंढ सकते हैं?

आप उन्हें अपने संगठन द्वारा एकत्रित सामग्री अथवा तृतीय पक्षों से जुटा सकते हैं। दोनों मामलों में, अपने क्षेत्र में आंकड़ो की सुरक्षा से संबन्धित अधिनियमों और आपकी एप्लिकेशन द्वारा सर्विस किये जाने वाले स्थानों की समीक्षा करना सुनिश्चित करें।

प्रशिक्षण का कोई भी आंकड़ा कभी भी पूर्णत: “निष्पक्ष" नहीं होगा, परन्तु यदि आप अपने आंकड़ों में पक्षपात के संभावित स्रोतों पर ध्यानपूर्वक विचार करें तो आप एक “संतोषजनक” ML मॉडल बनाने की संभावनाओं को बढ़ा सकते हैं और उन्हें ठीक करने के कदम उठा सकते हैं। इस बारे में अधिक जानकारी प्राप्त करने हेतु हमारे Introduction to Machine Learning की समीक्षा करें।

अपने आंकड़ें तैयार करें

प्रशिक्षण आंकड़ें संकलित करते समय आपको कुछ अन्य बातों पर भी ध्यान देना होगा।

प्रत्येक श्रेणी में पर्याप्त लेबल लगे उदाहरण सम्मिलित करें : AutoML Vision द्वारा कम से कम 100 उदाहरण प्रति लेबल चाहिये। आम तौर से, प्रशिक्षण प्रक्रिया में आप जितने अधिक लेबल लगे चित्र सम्मिलित कर सकेंगे, आपका मॉडल उतना ही बेहतर होगा।

प्रत्येक श्रेणी के लिये लगभग समान मात्रा के प्रशिक्षण उदाहरण सम्मिलित करना महत्वपूर्ण होता है। यदि किसी लेबल के लिये आपके पास अत्याधिक आंकड़ें हो, तो व्यापक रूप से भिन्न मात्रा के प्रति श्रेणी उदाहरण एकत्रित करने से बचने के लिये उनका केवल एक भाग का प्रयोग ही करें।

मॉडल से वांछित श्रेणीकरण के लिये अपनी योजना के अनुकूल दृष्टिगत रूप से समान चित्रों को खोजें। आदर्श रूप से आपके प्रशिक्षण के उदाहरण वास्तविक संसार के वे आंकड़ें हैं जिन्हें आप मॉडल से वांछित श्रेणीकरण करने हेतु प्रयोग करने की योजना का निर्माण करते समय प्रयोग किए जा रहे आंकड़ों के संग्रह से प्राप्त करते हैं।

बधाई हो! आपने अभी-अभी इसे पूरा किया आंकड़ों की तैयारी हां, इसकी प्रक्रिया चल रही है

आपके लिए सुझाव

open_in_new

चुनावों का मानसिक चित्रण

लेसन

संवादात्मक चुनावी मानसिक चित्रण से चुनावों को जीवंत बनाना

शुरू करें

अपने खाते से हटाएं

अपने खाते में सेव करें

None
open_in_new

Google शीट्स: डेटा साफ़ करना

लेसन

विश्लेषण और व विज़ुअलाइज़ेशन के लिए अपना डेटा तैयार करें।

शुरू करें

अपने खाते से हटाएं

अपने खाते में सेव करें

None
open_in_new

सर्वे की मदद से, अपनी ऑडियंस के बारे में ज़्यादा जानें

लेसन

सर्वे की मदद से, अपनी ऑडियंस, उनकी आदतों, और उनकी पसंद को जानें

शुरू करें

अपने खाते से हटाएं

अपने खाते में सेव करें

None

आप इस लेसन से किस हद तक संतुष्ट हैं?

आपके सुझाव, राय या शिकायत से, हमें अपने लेसन को और बेहतर बनाने में मदद मिलेगी!

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

आंकड़ों की तैयारी

प्रशिक्षण आंकड़े क्या होते हैं?

अपने मामले से प्रारम्भ करें

अपने मामले का आंकलन करें

अपने आंकड़ें जुटाएँ

अपने आंकड़ें तैयार करें

चुनावों का मानसिक चित्रण

Google शीट्स: डेटा साफ़ करना

सर्वे की मदद से, अपनी ऑडियंस के बारे में ज़्यादा जानें

मैं इसमें संसाधनों को खोज रहा/रही हूं

आंकड़ों की तैयारी

प्रशिक्षण आंकड़े क्या होते हैं?

अपने मामले से प्रारम्भ करें

अपने मामले का आंकलन करें

अपने आंकड़ें जुटाएँ

अपने आंकड़ें तैयार करें

चुनावों का मानसिक चित्रण

Google शीट्स: डेटा साफ़ करना

सर्वे की मदद से, अपनी ऑडियंस के बारे में ज़्यादा जानें