लोकप्रिय जेनेरिक एआई मॉडल को बाल यौन शोषण सामग्री पर प्रशिक्षित किया गया: रिपोर्ट

2 years ago

स्टैनफोर्ड यूनिवर्सिटी द्वारा किए गए एक अध्ययन से पता चला है कि लोकप्रिय टेक्स्ट-टू-इमेज जेनरेशन मॉडल स्टेबल डिफ्यूजन को बाल यौन शोषण सामग्री (सीएसएएम) पर प्रशिक्षित किया गया था और इसलिए, वे सिंथेटिक बाल पोर्नोग्राफ़ी का उत्पादन कर सकते हैं।

‘जेनरेटिव एमएल ट्रेनिंग डेटा और मॉडल में सीएसएएम की पहचान और उन्मूलन’ शीर्षक वाली रिपोर्ट में दावा किया गया है कि LAION-5B में बाल यौन शोषण सामग्री की एक “महत्वपूर्ण मात्रा” की पहचान की गई है, जो छवि-कैप्शन जोड़े का सबसे बड़ा स्वतंत्र रूप से उपलब्ध डेटासेट है, जिसका उपयोग किया गया था। ट्रेन स्थिर प्रसार।

रिपोर्ट अवैध और हानिकारक सामग्री बनाने के लिए एआई मॉडल के दुरुपयोग के बारे में चिंता जताती है।

जर्मन शोधकर्ता क्रिस्टोफ शुहमैन द्वारा निर्मित, LAION-5B को मार्च 2022 में जारी किया गया था और इसका उपयोग स्टेबल डिफ्यूजन जैसे व्यापक रूप से उपयोग किए जाने वाले AI छवि पीढ़ी मॉडल को प्रशिक्षित करने के लिए किया गया है। इस डेटासेट पर प्रशिक्षित मॉडल फोटोरिअलिस्टिक एआई नग्न छवियां तैयार कर रहे हैं, जिनमें सीएसएएम से जुड़े चित्र भी शामिल हैं, जैसा कि स्टैनफोर्ड के इंटरनेट ऑब्जर्वेटरी द्वारा प्रकाशित अध्ययन रिपोर्ट है।

LAION-5B जैसे खुले डेटासेट द्वारा संचालित मशीन लर्निंग मॉडल, अतियथार्थवादी छवियां उत्पन्न करने के लिए AI की शक्ति में अचानक वृद्धि के पीछे हैं।

LAION-5B में CSAM का पता लगाना
सितंबर 2023 में, स्टैनफोर्ड के शोधकर्ताओं ने LAION-5B डेटासेट के भीतर CSAM की उपस्थिति की सीमा का आकलन करने के लिए एक जांच शुरू की – LAION के सुरक्षा वर्गीकरणकर्ता द्वारा “असुरक्षित” के रूप में चिह्नित 32 मिलियन से अधिक प्रविष्टियों की जांच की गई।

उन्होंने डेटाबेस में हैश या छवि पहचानकर्ताओं की जांच की और बाद में उन्हें फोटोडीएनए जैसे सीएसएएम डिटेक्शन प्लेटफॉर्म पर जमा कर दिया। परिणाम को कनाडाई सेंटर फॉर चाइल्ड प्रोटेक्शन (C3P) द्वारा आगे सत्यापित किया गया। अंतिम सत्यापन के परिणामस्वरूप कुल 1,679 फोटोडीएनए मैचों की पहचान हुई।

सीधे शब्दों में कहें तो, LAION-5B में 1,679 बाल शोषण सामग्री मौजूद है।

महत्वपूर्ण बात यह है कि, LAION डेटासेट वास्तविक छवियों को शामिल करने से बचते हैं और इसके बजाय उन साइटों से मूल छवियों के लिंक प्रदान करते हैं जिन्हें वे स्रोत थे। LAION-5B के मामले में, कई CSAM फ़ोटो को Reddit, Twitter, Blogspot, WordPress जैसे प्लेटफ़ॉर्म और XHamster और XVideos जैसी वयस्क वेबसाइटों पर होस्ट करने के लिए खोजा गया था।

डिजिटल निगरानीकर्ताओं ने समर्पित समूहों पर एआई-जनित बाल यौन शोषण सामग्री के प्रसार को चिह्नित किया है। एक आंतरिक सर्वेक्षण में, अमेरिका स्थित बाल मानव तस्करी गैर-लाभकारी संस्था थॉर्न ने पाया कि सिंथेटिक सीएसएएम सामग्री ऑनलाइन समुदायों में साझा की गई ऐसी कुल फ़ाइलों का लगभग 1 प्रतिशत है।

बहरहाल, इस प्रतिशत ने अगस्त 2022 के बाद से एक परेशान करने वाली वृद्धि की प्रवृत्ति प्रदर्शित की है। गौरतलब है कि इन समुदायों के भीतर लगभग 66 प्रतिशत कंप्यूटर-जनित सीएसएएम को “अत्यधिक यथार्थवादी” के रूप में वर्णित किया गया है।

इंटरनेट से डेटाबेस हटा दिया गया
जवाब में, LAION के रचनाकारों ने कहा कि उन्होंने पुनर्प्रकाशन से पहले सुरक्षा सुनिश्चित करने के लिए एहतियात के तौर पर इंटरनेट से डेटासेट को अस्थायी रूप से हटा दिया है। एक बयान में, गैर-लाभकारी संस्था ने अवैध सामग्री के लिए “शून्य सहनशीलता नीति” की पुष्टि की, इस बात पर प्रकाश डाला कि उसने पहले अपने डेटासेट से अवैध सामग्री की पहचान करने और उसे खत्म करने के उद्देश्य से फ़िल्टर प्रकाशित किए थे।

जेनेरेटिव एआई मॉडल में स्पष्ट कमियों को उजागर करने वाली स्टैनफोर्ड की पहली रिपोर्ट नहीं है। इस साल मई में, OSINT शोधकर्ता हैंक वेन Ess ने CSAM उत्पन्न करने के लिए AI कला निर्माता ओपन जर्नी का खुलासा किया।

स्टैनफोर्ड रिपोर्ट ने स्वीकार किया कि वेब-स्केल डेटासेट महत्वपूर्ण चुनौतियों का सामना करते हैं, यहां तक कि सुरक्षा फ़िल्टरिंग के प्रयासों के साथ भी, यह अनुशंसा करते हुए कि सुरक्षा उपायों की कमी वाले स्थिर प्रसार 1.5 पर आधारित मॉडल को हटा दिया जाना चाहिए, और जहां संभव हो वहां वितरण बंद कर देना चाहिए।

स्टैनफोर्ड इंटरनेट ऑब्जर्वेटरी के मुख्य प्रौद्योगिकीविद् डेविड थिएल ने लिखा, “सीएसएएम के अलावा, ऐसे डेटासेट में गैर-सहमति वाली अंतरंग इमेजरी या “बॉर्डरलाइन” सामग्री की उपस्थिति अनिवार्य रूप से निश्चित है – संभावित कॉपीराइट और गोपनीयता चिंताओं के बारे में कुछ भी नहीं कहना।”