मशीन लर्निंग में पूर्वाग्रह
समझ लें कि ML का पूर्वाग्रह क्या है और उससे कैसे बचा जाए।
मशीन लर्निंग में निष्पक्षता
अब तक, इस पाठ्यक्रम में दिखाया गया है कि मौजूदा कामों पर मूल्यवान समय बचाने से लेकर नए अवसरों को खोलने तक, मशीन लर्निंग कैसे आपके काम को प्रवर्धित कर सकती है। ML आपके लिए बहुत कुछ कर सकती है, लेकिन यह चुनौतियों के साथ आती है, जिन्हें आपको नज़रअंदाज़ नहीं करना चाहिए।
उन चुनौतियों पर कार्रवाई करने के लिए, शोधकर्ताओं और प्रेक्टिशनर की बढ़ती संख्या मशीन लर्निंग में "निष्पक्षता" विषय पर ध्यान केंद्रित कर रही है। इसका मार्गदर्शक सिद्धांत यह है कि ML को सामाजिक श्रेणियों के ढाँचे पर विचार किए बिना जो हमारे जीवन को संरचित और प्रभावित करता है, सभी को समान रूप से लाभ पहुँचाना चाहिए।
पूर्वाग्रह क्या है?
ऐसे नकारात्मक परिणाम क्या होंगे, जो मशीन लर्निंग के उपयोग से उत्पन्न हो सकते हैं? संक्षिप्त उत्तर है: पूर्वाग्रह।
मनुष्य के रूप में हम सभी के अपने पूर्वाग्रह होते हैं। ये वे टूल होते हैं, जिनका उपयोग हमारे मस्तिष्क द्वारा प्रतिदिन उस पर फेंकी जाने वाली जानकारी से निपटने के लिए किया जाता है।
यह उदाहरण लें: अपनी आँखें बंद करें और जूते का चित्र बनाएँ। अधिक संभावना है कि आप स्नीकर का चित्र बनाएँगे। हो सकता है कि आदमी का चमड़े का जूता। इस बात की संभावना कम है कि आपने ऊंची हील वाली महिलाओं के जूते के बारे में सोचा हो। हो सकता है कि हम यह न भी जानें कि हममें से प्रत्येक क्यों एक के बजाय दूसरे जूते की तरफ पूर्वाग्रही है।
अब कल्पना करें कि आप कंप्यूटर को जूते पहचानना सिखाना चाहते हैं। आप इसे अपने पूर्वाग्रह से एक्सपोज़ करने पर समाप्त कर सकते हैं। इस तरह से मशीन लर्निंग में पूर्वाग्रह होता है। यहाँ तक कि अच्छे इरादों के साथ भी, अपने खुद के पूर्वाग्रहों से खुद को अलग करना असंभव है।
तीन प्रकार के पूर्वाग्रह
इसके विभिन्न तरीके हैं, जिनसे हमारे खुद के पूर्वाग्रहों का हमारे द्वारा बनाई जाने वाली प्रौद्योगिकी का हिस्सा बनने का जोखिम होता है:
सहभागिता पूर्वाग्रह
पहले उदाहरण लें: यदि हम मॉडल को ऐसे डेटासेट वाले जूतों की पहचान करने के लिए प्रशिक्षित करते हैं, जिसमें अधिकतर स्नीकर्स की तस्वीरें शामिल होती हैं, तो सिस्टम हाई हील्स को जूतों के रूप में पहचानना नहीं सीख पाएगा।
अव्यक्त पूर्वाग्रह
अगर आप ML प्रणाली को अतीत के मशहूर वैज्ञानिकों की तस्वीरों का उपयोग करके इस पर प्रशिक्षित करते हैं कि वैज्ञानिक कैसा दिखता है, तो शायद आपका एल्गोरिदम वैज्ञानिकों को केवल पुरुषों से जोड़ना सीखेगा।
चयन पूर्वाग्रह
मान लें कि आप मॉडल का चेहरों की पहचान करने के लिए प्रशिक्षण कर रहे हैं। यदि आपके द्वारा प्रशिक्षित करने के लिए उपयोग किए जाने वाला डेटा एक जनसंख्या का प्रतिनिधित्व करता है, तो यह संभावित रूप से जातिवादी परिणामों के साथ अन्य लोगों की कीमत पर उनके लिए बेहतर संचालन करेगा।
तो इन पूर्वाग्रहों से बचने के लिए हम क्या कर सकते हैं?
पूर्वाग्रह से बचने के लिए सही प्रश्न पूछना
पत्रकार के रूप में, पूर्वाग्रह के खिलाफ बचाव की पहली पंक्ति मजबूती से आपकी पहुंच के भीतर है: आप अपने पेशे में प्रतिदिन जन मूल्यों और नैतिक सिद्धांतों को लागू करते हैं, वे ही आपके टूलबॉक्स में जोड़ी जाने वाली किसी नई प्रौद्योगिकी की निष्पक्षता का आकलन करने के लिए विस्तारित किए जाने चाहिए। मशीन लर्निंग कोई अपवाद नहीं है।
इसके अतिरिक्त, सभी मामलों में आपको यह विचार करके प्रारंभ करना चाहिए कि क्या परिणाम व्यक्तियों के आर्थिक या अन्य महत्वपूर्ण जीवन अवसरों पर नकारात्मक प्रभाव डाल सकते हैं। यह विशेष रूप से महत्वपूर्ण है, यदि आपके द्वारा उपयोग किए जाने वाले डेटा में विवेकपूर्ण व्यक्तिगत जानकारी शामिल हो।
अकसर, अनुचित प्रभाव तुरंत स्पष्ट नहीं होता, लेकिन इस बारे में इसके लिए सूक्ष्म सामाजिक, राजनीतिक और नैतिक प्रश्न पूछने की आवश्यकता होती है कि आपकी मशीन लर्निंग प्रणाली किस तरह पूर्वाग्रह को अनुमति दे सकती है।
पूर्वाग्रह के मुख्य स्रोतों पर विचार करना
हालाँकि, कोई भी प्रशिक्षण डेटा कभी भी पूरी तरह से ‘निष्पक्ष’ नहीं होगा, लेकिन यदि आप सावधानीपूर्वक अपने डेटा में पूर्वाग्रह के संभावित स्रोतों पर विचार करते हैं, और उन पर कार्रवाई करने के लिए कदम उठाते हैं, तो आप निष्पक्ष मॉडल बनाने के अपने अवसरों में बहुत सुधार कर सकते हैं।
पूर्वाग्रह के चले आने का सबसे सामान्य कारण यह होता है, जब आपका प्रशिक्षण डेटा सही मायने में उस जनसंख्या का प्रतिनिधित्व नहीं करता, जिस पर आपका मॉडल पूर्वानुमान लगा रहा है। आपको सुनिश्चित करना चाहिए कि प्रत्येक प्रासंगिक समूह के लिए पर्याप्त डेटा हो।
जब कुछ समूहों को प्रशिक्षण डेटा में अन्य समूहों की तुलना में कम सकारात्मक रूप से प्रदर्शित किया जाता है, तो भिन्न प्रकार का पूर्वाग्रह खुद प्रकट होता है। मॉडल को प्रशिक्षित करने के लिए डेटा का उपयोग करने से पहले, आपको इसकी समीक्षा करने पर विचार करना चाहिए, ताकि यह सत्यापित किया जा सके कि क्या यह उन पूर्वाग्रहों को वहन करता है, जो एल्गोरिदम द्वारा सीखे और पुनः उत्पादित किए जा सकते हैं।
पूर्वाग्रह को रोकना: इसकी शुरुआत सजगता से होती है
पूर्वाग्रह कई तरह से उभर सकता है: प्रशिक्षण डेटासेट्स से, मशीन लर्निंग सिस्टम के विकास के दौरान किए गए निर्णयों के कारण, और जटिल फ़ीडबैक लूप के माध्यम से, जो ML सिस्टम वास्तविक दुनिया में नियोजित होने पर उत्पन्न होते हैं।
संभावित पूर्वाग्रह की पहचान करने के लिए आप कुछ ठोस प्रश्न पूछना चाह सकते हैं, जिनमें शामिल हैं:
- डेटा किस प्रयोजन के लिए एकत्रित किया गया था?
- डेटा कैसे एकत्रित किया गया था?
- डेटा के इस सेट और इस विशेष एल्गोरिदम का उपयोग करने का लक्ष्य क्या है?
- आँकड़ों के स्रोत का आकलन कैसे किया गया?
- खुद विश्लेषण से पहले डेटा विश्लेषण की प्रक्रिया को कैसे परिभाषित किया गया था?
पूर्वाग्रह जटिल मुद्दा है और इसके लिए कोई रामबाण नहीं है। इसका समाधान जागरूकता और हम सभी को जोखिमों के बारे में ध्यान रखने और उन्हें न्यूनतम करने के लिए सही कदम उठाने के साथ प्रारंभ होता है।
-
Pinpoint: A research tool for journalists
लेसनExplore and analyze thousands of documents with Google's research tool, Pinpoint. -
2-चरण सत्यापन: आपके Google खाते के लिए और मज़बूत सुरक्षा।
लेसनअपने पासवर्ड से परे सुरक्षा की अतिरिक्त परत जोड़ें। -
Google धरती टाइमलैप्स: परिवर्तन का अवलोकन
लेसनगौर करें कि पिछले 35 वर्षों में पृथ्वी कैसे बदल गई है।