छत्तीसगढ़ भारत विश्व खेल मनोरंजन नौकरी लाइफ स्टाइल टेक्नोलॉजी व्यापार
लोकप्रिय जेनेरिक एआई मॉडल को बाल यौन शोषण सामग्री पर प्रशिक्षित किया गया: रिपोर्ट – Jagaruk Nation

लोकप्रिय जेनेरिक एआई मॉडल को बाल यौन शोषण सामग्री पर प्रशिक्षित किया गया: रिपोर्ट

स्टैनफोर्ड यूनिवर्सिटी द्वारा किए गए एक अध्ययन से पता चला है कि लोकप्रिय टेक्स्ट-टू-इमेज जेनरेशन मॉडल स्टेबल डिफ्यूजन को बाल यौन शोषण सामग्री (सीएसएएम) पर प्रशिक्षित किया गया था और इसलिए, वे सिंथेटिक बाल पोर्नोग्राफ़ी का उत्पादन कर सकते हैं।

‘जेनरेटिव एमएल ट्रेनिंग डेटा और मॉडल में सीएसएएम की पहचान और उन्मूलन’ शीर्षक वाली रिपोर्ट में दावा किया गया है कि LAION-5B में बाल यौन शोषण सामग्री की एक “महत्वपूर्ण मात्रा” की पहचान की गई है, जो छवि-कैप्शन जोड़े का सबसे बड़ा स्वतंत्र रूप से उपलब्ध डेटासेट है, जिसका उपयोग किया गया था। ट्रेन स्थिर प्रसार।

रिपोर्ट अवैध और हानिकारक सामग्री बनाने के लिए एआई मॉडल के दुरुपयोग के बारे में चिंता जताती है।

जर्मन शोधकर्ता क्रिस्टोफ शुहमैन द्वारा निर्मित, LAION-5B को मार्च 2022 में जारी किया गया था और इसका उपयोग स्टेबल डिफ्यूजन जैसे व्यापक रूप से उपयोग किए जाने वाले AI छवि पीढ़ी मॉडल को प्रशिक्षित करने के लिए किया गया है। इस डेटासेट पर प्रशिक्षित मॉडल फोटोरिअलिस्टिक एआई नग्न छवियां तैयार कर रहे हैं, जिनमें सीएसएएम से जुड़े चित्र भी शामिल हैं, जैसा कि स्टैनफोर्ड के इंटरनेट ऑब्जर्वेटरी द्वारा प्रकाशित अध्ययन रिपोर्ट है।

LAION-5B जैसे खुले डेटासेट द्वारा संचालित मशीन लर्निंग मॉडल, अतियथार्थवादी छवियां उत्पन्न करने के लिए AI की शक्ति में अचानक वृद्धि के पीछे हैं।

LAION-5B में CSAM का पता लगाना
सितंबर 2023 में, स्टैनफोर्ड के शोधकर्ताओं ने LAION-5B डेटासेट के भीतर CSAM की उपस्थिति की सीमा का आकलन करने के लिए एक जांच शुरू की – LAION के सुरक्षा वर्गीकरणकर्ता द्वारा “असुरक्षित” के रूप में चिह्नित 32 मिलियन से अधिक प्रविष्टियों की जांच की गई।

उन्होंने डेटाबेस में हैश या छवि पहचानकर्ताओं की जांच की और बाद में उन्हें फोटोडीएनए जैसे सीएसएएम डिटेक्शन प्लेटफॉर्म पर जमा कर दिया। परिणाम को कनाडाई सेंटर फॉर चाइल्ड प्रोटेक्शन (C3P) द्वारा आगे सत्यापित किया गया। अंतिम सत्यापन के परिणामस्वरूप कुल 1,679 फोटोडीएनए मैचों की पहचान हुई।

सीधे शब्दों में कहें तो, LAION-5B में 1,679 बाल शोषण सामग्री मौजूद है।

महत्वपूर्ण बात यह है कि, LAION डेटासेट वास्तविक छवियों को शामिल करने से बचते हैं और इसके बजाय उन साइटों से मूल छवियों के लिंक प्रदान करते हैं जिन्हें वे स्रोत थे। LAION-5B के मामले में, कई CSAM फ़ोटो को Reddit, Twitter, Blogspot, WordPress जैसे प्लेटफ़ॉर्म और XHamster और XVideos जैसी वयस्क वेबसाइटों पर होस्ट करने के लिए खोजा गया था।

डिजिटल निगरानीकर्ताओं ने समर्पित समूहों पर एआई-जनित बाल यौन शोषण सामग्री के प्रसार को चिह्नित किया है। एक आंतरिक सर्वेक्षण में, अमेरिका स्थित बाल मानव तस्करी गैर-लाभकारी संस्था थॉर्न ने पाया कि सिंथेटिक सीएसएएम सामग्री ऑनलाइन समुदायों में साझा की गई ऐसी कुल फ़ाइलों का लगभग 1 प्रतिशत है।

बहरहाल, इस प्रतिशत ने अगस्त 2022 के बाद से एक परेशान करने वाली वृद्धि की प्रवृत्ति प्रदर्शित की है। गौरतलब है कि इन समुदायों के भीतर लगभग 66 प्रतिशत कंप्यूटर-जनित सीएसएएम को “अत्यधिक यथार्थवादी” के रूप में वर्णित किया गया है।

इंटरनेट से डेटाबेस हटा दिया गया
जवाब में, LAION के रचनाकारों ने कहा कि उन्होंने पुनर्प्रकाशन से पहले सुरक्षा सुनिश्चित करने के लिए एहतियात के तौर पर इंटरनेट से डेटासेट को अस्थायी रूप से हटा दिया है। एक बयान में, गैर-लाभकारी संस्था ने अवैध सामग्री के लिए “शून्य सहनशीलता नीति” की पुष्टि की, इस बात पर प्रकाश डाला कि उसने पहले अपने डेटासेट से अवैध सामग्री की पहचान करने और उसे खत्म करने के उद्देश्य से फ़िल्टर प्रकाशित किए थे।

जेनेरेटिव एआई मॉडल में स्पष्ट कमियों को उजागर करने वाली स्टैनफोर्ड की पहली रिपोर्ट नहीं है। इस साल मई में, OSINT शोधकर्ता हैंक वेन Ess ने CSAM उत्पन्न करने के लिए AI कला निर्माता ओपन जर्नी का खुलासा किया।

स्टैनफोर्ड रिपोर्ट ने स्वीकार किया कि वेब-स्केल डेटासेट महत्वपूर्ण चुनौतियों का सामना करते हैं, यहां तक कि सुरक्षा फ़िल्टरिंग के प्रयासों के साथ भी, यह अनुशंसा करते हुए कि सुरक्षा उपायों की कमी वाले स्थिर प्रसार 1.5 पर आधारित मॉडल को हटा दिया जाना चाहिए, और जहां संभव हो वहां वितरण बंद कर देना चाहिए।

स्टैनफोर्ड इंटरनेट ऑब्जर्वेटरी के मुख्य प्रौद्योगिकीविद् डेविड थिएल ने लिखा, “सीएसएएम के अलावा, ऐसे डेटासेट में गैर-सहमति वाली अंतरंग इमेजरी या “बॉर्डरलाइन” सामग्री की उपस्थिति अनिवार्य रूप से निश्चित है – संभावित कॉपीराइट और गोपनीयता चिंताओं के बारे में कुछ भी नहीं कहना।”

Exit mobile version