Product Design, Manufacturing & Innovation Resources

घर » पूर्वाग्रह शमन प्रसंस्करण चरण

पूर्वाग्रह शमन प्रसंस्करण चरण

2010

(यह छवि केवल उदाहरण के लिए बनाई गई है)

एल्गोरिथम संबंधी पूर्वाग्रह निवारण तकनीकों को मॉडल प्रशिक्षण प्रक्रिया के संदर्भ में तीन मुख्य चरणों में वर्गीकृत किया गया है। पूर्व-प्रसंस्करण विधियाँ प्रशिक्षण डेटा को ही संशोधित करती हैं (जैसे, पुनर्भारण, पुनर्नमूनाकरण)। अंतःप्रसंस्करण विधियाँ निष्पक्षता संबंधी बाधाओं को सीधे मॉडल के शिक्षण एल्गोरिथम में शामिल करती हैं। पश्चात-प्रसंस्करण विधियाँ निष्पक्षता में सुधार के लिए मॉडल द्वारा की गई भविष्यवाणियों को समायोजित करती हैं।

यह तीन-भाग वाला वर्गीकरण पूर्वाग्रह को दूर करने के लिए एक संरचित ढांचा प्रदान करता है। प्री-प्रोसेसिंग डेटा-केंद्रित है; इसका उद्देश्य मॉडल द्वारा डेटा को देखने से पहले एक "निष्पक्ष" डेटासेट बनाना है। रीवेइंग जैसी तकनीकें असंतुलन को दूर करने के लिए डेटा बिंदुओं को अलग-अलग महत्व प्रदान करती हैं, जबकि ओवर/अंडर-सैंपलिंग विभिन्न समूहों से उदाहरणों की संख्या को समायोजित करती है। यह दृष्टिकोण मॉडल-स्वतंत्र है, लेकिन डेटा के अंतर्निहित वितरण को बदल सकता है।

इन-प्रोसेसिंग मॉडल-केंद्रित होती है। यह लर्निंग एल्गोरिदम के ऑब्जेक्टिव फंक्शन को संशोधित करके उसमें अनुचितता के लिए पेनल्टी टर्म शामिल करती है। उदाहरण के लिए, एक मॉडल को सटीकता को अधिकतम करने के साथ-साथ समूहों के बीच त्रुटि दरों के अंतर को न्यूनतम करने के लिए अनुकूलित किया जा सकता है। इससे अधिक एकीकृत समाधान प्राप्त हो सकते हैं, लेकिन इसके लिए कोर एल्गोरिदम को संशोधित करना पड़ता है, जिससे यह कम लचीला हो जाता है।

पोस्ट-प्रोसेसिंग पूर्वानुमान-केंद्रित होती है। यह प्रशिक्षित, संभावित रूप से पक्षपाती मॉडल के आउटपुट को लेती है और उन्हें निष्पक्षता मानदंड को पूरा करने के लिए समायोजित करती है। इसमें विभिन्न समूहों के लिए वर्गीकरण सीमा को बदलना शामिल हो सकता है। यह सबसे कम हस्तक्षेपकारी विधि है क्योंकि यह मॉडल को एक ब्लैक बॉक्स की तरह मानती है, लेकिन इससे समग्र उपयोगिता कम हो सकती है और यह तदर्थ प्रतीत हो सकती है। चरण का चुनाव प्रशिक्षण डेटा तक पहुंच, मॉडल को संशोधित करने की क्षमता और विशिष्ट निष्पक्षता लक्ष्यों जैसे कारकों पर निर्भर करता है।

एल्गोरिदम, कृत्रिम बुद्धिमत्ता (एआई), मशीन लर्निंग, प्रेडिक्टिव मेंटेनेंस एल्गोरिदम, गुणवत्ता प्रबंधन, सॉफ्टवेयर इंजीनियरिंग, उपयोगकर्ता-केंद्रित डिज़ाइन

UNESCO Nomenclature: 1203

कंप्यूटर विज्ञान

Type

सार प्रणाली

व्यवधान

संतोषजनक

उपयोग

व्यापक उपयोग

शगुन

मशीन लर्निंग में असंतुलित डेटासेट को संभालने की तकनीकें
गणित में विवश अनुकूलन विधियाँ
निष्पक्षता मापदंडों का विकास जो उद्देश्यों या बाधाओं के रूप में कार्य कर सकें
मशीन लर्निंग के क्षेत्र में समग्र विकास

आवेदन

आईबीएम द्वारा विकसित एआईएफ360 टूलकिट, जो तीनों श्रेणियों के एल्गोरिदम को लागू करता है।
गूगल का व्हाट-इफ टूल, जो मॉडल के व्यवहार और निष्पक्षता की पड़ताल करने की अनुमति देता है।
fairlearn, निष्पक्षता का आकलन और सुधार करने के लिए एक ओपन-सोर्स पायथन पैकेज है।
अंतर्निहित पूर्वाग्रह पहचान और निवारण सुविधाओं की पेशकश करने वाले वाणिज्यिक एआई प्लेटफॉर्म

पेटेंट:

संभावित नवाचार विचार

बॉट ट्रैफिक को कम करने के कारण, जो वर्तमान में प्रति दिन 40,000 से अधिक है, यह सामग्री केवल समुदाय के सदस्यों के लिए आरक्षित है।
> लॉगिन < या > रजिस्टर < इस सामग्री और अन्य सभी प्रतिबंधित सामग्रियों और उपकरणों तक पहुंच (100% निःशुल्क) है।

संबंधित विषय: पूर्वाग्रह निवारण, पूर्व-प्रसंस्करण, प्रक्रिया के दौरान, पश्चात-प्रसंस्करण, निष्पक्ष मशीन लर्निंग, पुनर्मूल्यांकन, पुनर्नमूनाकरण, निष्पक्षता संबंधी बाधाएं, एल्गोरिथम निष्पक्षता, एआई नैतिकता।

ऐतिहासिक संदर्भ

R programming environment with statistical analysis tools and coding interface.

आर प्रोग्रामिंग भाषा

R सांख्यिकीय कंप्यूटिंग और ग्राफिक्स के लिए एक मुफ्त सॉफ्टवेयर वातावरण है, और S प्रोग्रामिंग भाषा की एक बोली है। इसे रॉस इहाका और रॉबर्ट जेंटलमैन द्वारा ऑकलैंड विश्वविद्यालय, न्यूजीलैंड में बनाया गया था। R को S के एक वैकल्पिक कार्यान्वयन के रूप में माना जाता है, जिसमें स्कीम से व्युत्पन्न सिमेंटिक्स हैं, जिसने लेक्सिकल स्कोपिंग जैसी शक्तिशाली सुविधाएँ पेश कीं जो शुरुआती S में मौजूद नहीं थीं।

Computer workstation with R programming interface and statistical graphs in software engineering.

व्यापक आर आर्काइव नेटवर्क (CRAN)

CRAN R सॉफ्टवेयर, इसके प्रलेखन, और हजारों उपयोगकर्ता-योगदानित एक्सटेंशन पैकेजों के लिए प्राथमिक रिपॉजिटरी है। यह दुनिया भर में FTP और वेब सर्वरों का एक नेटवर्क है जो R कोड और प्रलेखन के समान, अद्यतन संस्करणों को संग्रहीत करता है। यह केंद्रीकृत, फिर भी वितरित, प्रणाली R के पारिस्थितिकी तंत्र के लिए मौलिक है, जो विश्व स्तर पर उपयोगकर्ताओं के लिए आसान पहुंच और पुनरुत्पादकता सुनिश्चित करती है।

Agile project management meeting with diverse team in modern office.

एजाइल परियोजना प्रबंधन

एजाइल परियोजना प्रबंधन अपने जीवन चक्र के दौरान एक परियोजना को वितरित करने के लिए एक पुनरावृत्ति दृष्टिकोण है। यह बड़ी परियोजनाओं को छोटे, प्रबंधनीय कार्यों में तोड़ता है जो छोटी पुनरावृत्तियों या 'स्प्रिंट' में पूरे होते हैं। यह बार-बार पुनर्मूल्यांकन, योजनाओं के अनुकूलन और परिवर्तन के प्रति लचीलेपन की अनुमति देता है। यह व्यापक दस्तावेज़ीकरण और कठोर योजनाओं पर ग्राहक सहयोग, कार्यशील सॉफ्टवेयर और परिवर्तन का जवाब देने को प्राथमिकता देता है।

पूर्वाग्रह शमन प्रसंस्करण चरण

डेटा वैज्ञानिकों की टीम एआई अनुप्रयोगों में एल्गोरिद्मिक कन्फौंडिंग का विश्लेषण कर रही है।.

एल्गोरिथम संबंधी भ्रम

एल्गोरिथम संबंधी भ्रम तब होता है जब एक एल्गोरिथम द्वारा उपयोग किया जाने वाला एक प्रॉक्सी चर एक संरक्षित विशेषता (जैसे जाति या लिंग) और रुचि के परिणाम दोनों के साथ सहसंबंधित होता है। एल्गोरिथम अनजाने में प्रॉक्सी का उपयोग करके संरक्षित विशेषता के आधार पर भेदभाव करना सीख सकता है, भले ही संरक्षित विशेषता को मॉडल के इनपुट डेटा से स्पष्ट रूप से बाहर रखा गया हो।

1993

1997-04-23

2001

2010

2020

1990

1993

1998

2010

2016

Software engineer optimizing JIT compilation in a modern workspace.

जस्ट-इन-टाइम (JIT) संकलन

जस्ट-इन-टाइम (JIT) संकलन एक हाइब्रिड दृष्टिकोण है जो संकलन और व्याख्या दोनों की विशेषताओं को जोड़ता है। कोड को समय से पहले (AOT) संकलित करने के बजाय, एक JIT कंपाइलर रनटाइम पर, निष्पादित होने से ठीक पहले, बाइटकोड को नेटिव मशीन कोड में अनुवादित करता है। यह वास्तविक रनटाइम व्यवहार के आधार पर गतिशील अनुकूलन की अनुमति देता है, जिससे अक्सर शुद्ध व्याख्या की तुलना में प्रदर्शन में सुधार होता है।

Usability testing lab with participants evaluating digital interfaces in human-computer interaction.

नील्सन के उपयोगिता के पांच घटक

मुख्य रूप से UI और वेबडिज़ाइन में एक प्रमुख उपयोगिता सलाहकार जैकब नील्सन ने उपयोगिता को पांच गुणवत्ता घटकों के माध्यम से परिभाषित किया: सीखने की क्षमता (पहली बार उपयोगकर्ताओं के लिए बुनियादी कार्य पूरे करना कितना आसान है?), दक्षता (एक बार सीख लेने के बाद वे कितनी जल्दी कार्य कर सकते हैं?), यादगारपन (क्या उपयोगकर्ता इसे उपयोग न करने की अवधि के बाद दक्षता फिर से स्थापित कर सकते हैं?), त्रुटियां (उपयोगकर्ता कितनी त्रुटियां करते हैं?), और संतुष्टि (इसका उपयोग करना कितना सुखद है?)

Usability testing lab with users evaluating software applications in human-computer interaction.

ISO 9241-11 उपयोगिता की परिभाषा

अंतर्राष्ट्रीय मानक ISO 9241-11 उपयोगिता को "उस सीमा तक परिभाषित करता है जहाँ तक किसी उत्पाद का उपयोग निर्दिष्ट उपयोगकर्ताओं द्वारा उपयोग के एक निर्दिष्ट संदर्भ में प्रभावशीलता, दक्षता और संतुष्टि के साथ निर्दिष्ट लक्ष्यों को प्राप्त करने के लिए किया जा सकता है।" यह परिभाषा उपयोगिता को मापने के लिए एक ढाँचा प्रदान करती है, इसे तीन अलग-अलग, मात्रात्मक घटकों में तोड़कर, विशुद्ध रूप से व्यक्तिपरक मूल्यांकनों से आगे बढ़कर।

R programming workspace with Tidyverse data analysis tools and ggplot2 visualizations.

आर टाइडीवर्स इकोसिस्टम

टाइडीवर्स डेटा विज्ञान के लिए डिज़ाइन किए गए आर पैकेजों का एक संग्रह है जो एक अंतर्निहित डिज़ाइन दर्शन, व्याकरण और डेटा संरचनाओं को साझा करते हैं। हैडली विकम और अन्य द्वारा विकसित, यह डेटा आयात, सफाई, परिवर्तन, विज़ुअलाइज़ेशन और मॉडलिंग के लिए एक सुसंगत और शक्तिशाली टूलकिट प्रदान करता है। प्रमुख पैकेजों में `ggplot2`, `dplyr`, `tidyr`, और `readr` शामिल हैं, जो पाइप का उपयोग करके एक साथ जुड़ते हैं।

मशीन लर्निंग में निष्पक्षता मेट्रिक्स का विश्लेषण करने वाली डेटा वैज्ञानिकों की टीम।.

निष्पक्षता असंभवता प्रमेय (मशीन लर्निंग)

निष्पक्ष मशीन लर्निंग में, असंभवता प्रमेय यह दर्शाते हैं कि एक एल्गोरिथम के लिए एक साथ कई, सहज ज्ञान युक्त निष्पक्षता मानदंडों को पूरा करना गणितीय रूप से असंभव है, सिवाय तुच्छ मामलों के। उदाहरण के लिए, एक एल्गोरिथम आमतौर पर जनसांख्यिकीय समानता (समूहों में समान सकारात्मक दरें) और समान विषम (समूहों में समान सच्ची सकारात्मक और गलत सकारात्मक दरें) दोनों को पूरा नहीं कर सकता है यदि समूहों के बीच आधार दरें भिन्न होती हैं।

(यदि तिथि अज्ञात है या प्रासंगिक नहीं है, उदाहरण के लिए "द्रव यांत्रिकी", तो इसके उल्लेखनीय उद्भव का एक अनुमानित आंकड़ा प्रदान किया गया है)