सीधे मुख्य कॉन्टेंट पर जाएं
डैशबोर्ड पर जाएं
क्या आपको जानकारी नहीं है कि कहां से शुरू करना है? अपने हिसाब से सुझाव पाने के लिए, छोटे से क्विज़ में हिस्सा लें.
8 में से 4 लेसन
मशीन कैसे सीखती है?
5 मिनट इन लेसन को पूरा करना बाकी है

मशीन कैसे सीखती है?

5.4_9oVu9sc.jpg

ML प्रशिक्षण प्रक्रिया का चरण-दर-चरण सिंहावलोकन।

5.4_9oVu9sc.jpg

अपने मशीन लर्निंग मॉडल को प्रशिक्षित करना

5.1.jpg

अभी तक हमने इस तथ्य की ओर संकेत किया है कि अपेक्षित परिणाम देने के लिए ML मॉडल को ‘प्रशिक्षित’ किया जाना चाहिए। इस पाठ में आप विशिष्ट केस-अध्ययन के लेंस के माध्यम से जानेंगे कि प्रशिक्षण प्रक्रिया में कौन से चरण शामिल हैं। 


इसका लक्ष्य मशीन द्वारा सीखने के तरीके को समझने में आपकी मदद करना है, जो अभी तक खुद प्रक्रिया को दोहराने में सक्षम नहीं है। 


मशीन लर्निंग का उपयोग करने का निर्णय लेने से पहले, खुद से पूछें: मैं किस प्रश्न के लिए उत्तर ढूँढ़ने का प्रयास कर रहा हूँ? और क्या मुझे वहाँ जाने के लिए मशीन लर्निंग की आवश्यकता है?

5.1.jpg

आप किस प्रश्न का उत्तर देना चाहते हैं?

5.2.jpg

कल्पना करें कि आपकी वेबसाइट पाठकों को आलेखों पर टिप्पणी करने का अवसर देती है। हर दिन हजारों टिप्पणियाँ पोस्ट की जाती हैं, और जैसा कि होता है, कभी-कभी वार्तालाप थोड़ा गंदा हो जाता है। 


यह बहुत अच्छा होगा यदि स्वचालित सिस्टम आपके प्लेटफ़ॉर्म पर पोस्ट की गई सभी टिप्पणियों को श्रेणीबद्ध करे, उन टिप्पणियों की पहचान करे, जो ‘विषाक्त’ हो सकती हैं और उन्हें मानव मॉडरेटर के लिए फ़्लैग करे, जो वार्तालाप की गुणवत्ता को बेहतर बनाने के लिए उनकी समीक्षा कर सकते हैं।


यह एक प्रकार की समस्या है, जिसमें मशीन लर्निंग आपकी मदद कर सकती है। और वास्तव में, यह पहले ही ऐसा करती है। अधिक जानने के लिए जिगशॉ की परिप्रेक्ष्य API की जाँच करें।  


यह वह उदाहरण है, जिसका उपयोग हम यह जानने के लिए करेंगे कि मशीन लर्निंग मॉडल को किस प्रकार प्रशिक्षित किया जाता है। लेकिन ध्यान रखें कि समान प्रक्रिया को विभिन्न केस-अध्ययनों की किसी भी संख्या तक बढ़ाया जा सकता है।

5.2.jpg

आपके केस उपयोग का आकलन करना

5.3.jpg

विषाक्त टिप्पणियों को पहचानने के लिए मॉडल को प्रशिक्षित करने के लिए, आपको डेटा की आवश्यकता होगी। इस स्थिति में, इसका अर्थ आपकी वेबसाइट पर आपको प्राप्त होने वाली टिप्पणियों के उदाहरण हैं। लेकिन अपना डेटासेट तैयार करने से पहले, यह महत्वपूर्ण है कि आप इस पर विचार करें कि आप क्या परिणाम प्राप्त करने का प्रयास कर रहे हैं।


यहाँ तक कि इंसानों के लिए भी, यह मूल्यांकन करना हमेशा आसान नहीं होता कि कोई टिप्पणी विषाक्त है या नहीं और इसलिए ऑनलाइन प्रकाशित नहीं की जानी चाहिए। दो मॉडरेटर्स के बीच टिप्पणी की ‘विषाक्तता’ पर भिन्न विचार हो सकते हैं। इसलिए आपको एल्गोरिदम से हर समय "सही काम करने" की अपेक्षा नहीं करनी चाहिए।


मशीन लर्निंग मिनटों में बहुत बड़ी संख्या में टिप्पणियों को हैंडल कर सकती है, लेकिन यह ध्यान रखना महत्वपूर्ण है कि यह केवल उसके आधार पर ‘अनुमान लगा रही है’, जो यह सीख रही है। यह कभी-कभी ग़लत उत्तर दे सकती है और आम तौर पर ग़लतियाँ करेगी।

5.3.jpg

डेटा प्राप्त करना

5.4.jpg

अब अपना डेटासेट तैयार करने का समय है। हमारे केस-अध्ययन के लिए, हम पहले से जानते हैं कि हमें किस प्रकार के डेटा की आवश्यकता है और इसे कहाँ ढूँढ़ना है: आपकी वेबसाइट पर पोस्ट की गई टिप्पणियाँ। 

चूँकि आप मशीन लर्निंग मॉडल से टिप्पणियों की विषाक्तता को पहचानने के लिए कह रहे हैं, इसलिए आपको वर्गीकृत करने के लिए इच्छित टेक्स्ट आइटम्स के प्रकार (टिप्पणियों) के लेबल किए गए उदाहरण, और वे श्रेणियाँ या लेबल प्रदान करने की आवश्यकता है, जिनका आप चाहते हैं कि ML सिस्टम पूर्वानुमान लगाए ("विषाक्त" या "गैर-विषाक्त")। 


हालाँकि, हो सकता है कि अन्य उपयोग स्थितियों के लिए आपके पास डेटा इतनी आसानी से उपलब्ध न हो। आपको इसे वहाँ से सोर्स करने की आवश्यकता होगी, जहाँ से आपका संगठन एकत्रित करता है या तृतीय-पक्षों से। दोनों स्थितियों में, सुनिश्चित करें कि आप क्षेत्र और आपकी एप्लिकेशन द्वारा प्रदान किए जाने वाले स्थान दोनों में डेटा सुरक्षा के बारे में विनियमों की समीक्षा करें।

5.4.jpg

अपने डेटा को आकार देना

5.5.jpg

जब आप डेटा एकत्रित कर लेते हैं और मशीन को फ़ीड करने से पहले, आपको डेटा का गहराई से विश्लेषण करने की आवश्यकता होती है। आपके मशीन लर्निंग मॉडल की आउटपुट केवल उतनी ही अच्छी और निष्पक्ष होगी, जितना अच्छा और निष्पक्ष डेआपका टा है (अगले पाठ में 'निष्पक्षता' की अवधारणा पर अधिक दिया गया है)। आपको यह विचार करना चाहिए कि आपके उपयोग केस की स्थिति उन लोगों को नकारात्मक रूप से कैसे प्रभावित कर सकती है, जो मॉडल द्वारा सुझाई गई क्रियाओं से प्रभावित होंगे।


अन्य चीज़ों के बीच, मॉडल को सफलतापूर्वक प्रशिक्षित करने के लिए आपको लेबल किए गए पर्याप्त उदाहरणों को शामिल करना और उन्हें समान रूप से श्रेणियों में वितरित करना सुनिश्चित करना होगा। प्रसंग और उपयोग की गई भाषा पर विचार करते हुए, आपको उदाहरणों का विस्तृत सेट भी प्रदान करना होगा, ताकि मॉडल आपके समस्या स्थान में भिन्नता को कैप्चर कर सके।

5.5.jpg

एल्गोरिदम चुनना

5.6.jpg

डेटासेट तैयार करने के बाद, आपको प्रशिक्षित करने के लिए मशीन लर्निंग एल्गोरिदम चुनना होगी। प्रत्येक एल्गोरिदम का अपना प्रयोजन होता है। परिणामस्वरूप, आप जो परिणाम प्राप्त करना चाहते हैं, उसके आधार पर आपको सही प्रकार का एल्गोरिदम चुनना होगा।


पिछले पाठों में हमने मशीन लर्निंग के विभिन्न उपागमों के बारे में सीखा है। चूँकि हमारे केस-अध्ययन के लिए हमारी टिप्पणियों को "विषाक्त" या "गैर-विषाक्त" के रूप में वर्गीकृत करने में सक्षम होने के लिए लेबल किए गए डेटा की आवश्यकता होगी, इसलिए हम जो करने का प्रयास कर रहे हैं, वह पर्यवेक्षण लर्निंग है।


Google क्लाउड स्वतः ML प्राकृतिक भाषा कई एल्गोरिदम में से है, जिनसे आप हमारे इच्छित परिणाम प्राप्त कर सकते हैं। लेकिन चाहे आप कोई भी एल्गोरिदम चुनें, इस पर निर्दिष्ट निर्देशों का पालन करना सुनिश्चित करें कि प्रशिक्षण डेटासेट को किस प्रकार स्वरूपित करने की आवश्यकता है।

5.6.jpg

मॉडल का प्रशिक्षण, सत्यापन और परीक्षण

5.7.jpg

अब हम इस पर आगे बढ़ते हैं कि उचित प्रशिक्षण चरण क्या है, जिसमें हम डेटा का उपयोग अपने मॉडल की यह पूर्वानुमान लगाने की क्षमता में उत्तरोत्तर रूप से सुधार करने के लिए करते हैं कि दी गई टिप्पणी विषाक्त है या नहीं। हम अपने अधिकांश डेटा को एल्गोरिदम में फ़ीड करते हैं, शायद कुछ मिनट प्रतीक्षा करते हैं, और वाह, हमारा मॉडल प्रशिक्षित हो गया है। 

लेकिन केवल “अधिकांश” डेटा क्यों? यह सुनिश्चित करने के लिए कि मॉडल ठीक से सीखता है, आपको अपने डेटा को तीन में विभाजित करना होगा:


  • प्रशिक्षण सेट वह है, जिसे आपका मॉडल "देखता" है और जिससे प्रारंभ में सीखता है।
  • सत्यापन सेट भी प्रशिक्षण प्रक्रिया का भाग होता है, लेकिन मॉडल की संरचना को निर्दिष्ट करने वाले मॉडल के हाइपरपैरामीटर्स, वेरिएबल को ट्यून करने के लिए इसे अलग रखा जाता है। 
  • परीक्षण सेट स्टेज में प्रशिक्षण प्रक्रिया के बाद ही प्रवेश करता है। हम इसका उपयोग डेटा पर हमारे मॉडल के निष्पादन का परीक्षण करने के लिए करते हैं, जिसे इसने अभी तक नहीं देखा।
5.7.jpg

परिणामों का मूल्यांकन करना

5.8.jpg

आपको कैसे पता चलेगा कि मॉडल ने संभावित विषाक्त टिप्पणियों को सही रूप से पहचानना सीख लिया है?

जब प्रशिक्षण पूर्ण हो जाता है, तो एल्गोरिदम आपको मॉडल निष्पादन का ओवरव्यू प्रदान करता है। जैसा कि हमने पहले ही चर्चा की है, आप मॉडल को 100% समय पर सही होने की अपेक्षा नहीं कर सकते। यह निर्णय करना आप पर है कि स्थिति के आधार पर ‘पर्याप्त’ अच्छा क्या है।


अपने मॉडल का मूल्यांकन करने के लिए जिन मुख्य बातों पर आप विचार करना चाहते हैं, वे हैं ग़लत सकारात्मक और ग़लत नकारात्मक। हमारे मामले में, ग़लत सकारात्मक वह टिप्पणी होगी, जो विषाक्त नहीं है, लेकिन इस तरह के रूप में चिह्नित हो जाती है। आप इसे तुरंत ख़ारिज कर सकते हैं और आगे बढ़ सकते हैं। मिथ्या नकारात्मक वह टिप्पणी होगी, जो विषाक्त होती है, लेकिन प्रणाली इसे इस तरह फ़्लैग करने में विफल रहती है। यह समझना आसान है कि आप चाहेंगे कि आपका मॉडल से किस ग़लती से बचे।

5.8.jpg

पत्रकारीय मूल्यांकन

5.9.jpg

प्रशिक्षण प्रक्रिया के परिणामों का मूल्यांकन तकनीकी विश्लेषण के साथ समाप्त नहीं होता। इस बिंदु पर, आपके पत्रकारीय मूल्यों और दिशानिर्देशों को यह निर्णय लेने में आपकी मदद करनी चाहिए कि एल्गोरिदम जो जानकारी प्रदान कर रही है, उसका उपयोग कैसे करें।

यह सोचकर प्रारंभ करें कि क्या अब आपके पास वह जानकारी है, जो पहले उपलब्ध नहीं थी और उस जानकारी की समाचार-उपयुक्तता क्या है। क्या यह आपकी मौजूदा प्राक्कल्पना को सत्यापित करती है या यह उन नए दृष्टिकोण और स्टोरी के कोणों पर प्रकाश डाल रही है, जिन पर आप पहले विचार नहीं कर रहे थे?

अब इस बारे में आपकी समझ बेहतर हो जानी चाहिए कि मशीन लर्निंग कैसे काम करती है और आप इसकी क्षमता को आज़माने के लिए और अधिक उत्सुक हो सकते हैं। लेकिन हम अभी तैयार नहीं हैं। अगला पाठ उस नंबर एक चिंता को पेश करता है, जो मशीन लर्निंग अपने साथ लाती है: पूर्वाग्रह।

5.9.jpg
बधाई हो! आपने अभी-अभी इसे पूरा किया मशीन कैसे सीखती है? हां, इसकी प्रक्रिया चल रही है
आपके लिए सुझाव
आप इस लेसन से किस हद तक संतुष्ट हैं?
आपके सुझाव, राय या शिकायत से, हमें अपने लेसन को और बेहतर बनाने में मदद मिलेगी!
क्या आपको यह पेज छोड़ना है और अपनी प्रोग्रेस का डेटा मिटाना है?
इस पेज को छोड़ने पर, मौजूदा लेसन के लिए आपकी प्रोग्रेस का पूरा डेटा मिट जाएगा. क्या आपको वाकई इस पेज को छोड़कर अपनी प्रोग्रेस का डेटा मिटाना है?