Reddit कथित तौर पर खोज परिणामों से अपना डेटा निकालने और बिना लाइसेंस के इसका उपयोग करने के लिए SerApi, OxyLabs, AWMProxy और Perplexity कंपनियों पर मुकदमा कर रहा है। दी न्यू यौर्क टाइम्स रिपोर्टों. नया मुकदमा एआई स्टार्टअप एंथ्रोपिक के खिलाफ कानूनी कार्रवाई के बाद आया है, जिसने कथित तौर पर अपने क्लाउड चैटबॉट को प्रशिक्षित करने के लिए रेडिट सामग्री का उपयोग किया था।
2023 तक, Reddit डेटा पर पैसा कमाने की उम्मीद में पोस्ट और अन्य सामग्री तक पहुंच चाहने वाली कंपनियों से शुल्क लेता है, जिसका उपयोग AI प्रशिक्षण के लिए किया जा सकता है। कंपनी ने Google और OpenAI जैसी कंपनियों के साथ लाइसेंसिंग समझौते पर भी हस्ताक्षर किए हैं, और यहां तक कि उपयोगकर्ताओं के पोस्ट में ज्ञान का लाभ उठाने के लिए अपनी खुद की एक AI उत्तर मशीन भी बनाई है। Reddit सामग्री के लिए खोज परिणामों को स्क्रैप करने से उन भुगतानों से बचा जा सकता है, यही कारण है कि कंपनी वित्तीय क्षति और एक स्थायी निषेधाज्ञा की मांग कर रही है जो कंपनियों को पहले से स्क्रैप की गई Reddit सामग्री को बेचने से रोकती है।
Reddit जिन कंपनियों पर ध्यान केंद्रित कर रहा है, उनमें से कुछ, जैसे कि SerApi, OxyLabs और AWMProxy, वास्तव में घरेलू नाम नहीं हैं, लेकिन उन सभी ने खोज परिणामों से डेटा एकत्र करना और इसे बेचना अपने व्यवसाय का एक महत्वपूर्ण हिस्सा बना लिया है। मुकदमे में उलझन का समावेश अधिक स्पष्ट हो सकता है। एआई कंपनी को अपने मॉडलों को प्रशिक्षित करने के लिए डेटा की आवश्यकता होती है, और उसे पहले ही ऐसी सामग्री की नकल करते और दोबारा तैयार करते हुए पकड़ा जा चुका है, जिसके लाइसेंस के लिए उसने भुगतान नहीं किया है। इसमें कथित तौर पर robots.txt प्रोटोकॉल की अनदेखी भी शामिल है, जो वेबसाइटों के लिए यह संचार करने का एक तरीका है कि वे अपनी सामग्री को स्क्रैप नहीं करना चाहते हैं।
की एक प्रति के अनुसार मुकदमा Engadget को दिए गए, Reddit ने पहले ही Perplexity को एक संघर्ष विराम भेज दिया था और उसे बिना लाइसेंस के पोस्ट को स्क्रैप करने से रोकने के लिए कहा था। कंपनी ने दावा किया कि उसने Reddit डेटा का उपयोग नहीं किया, लेकिन उसने अपने चैटबॉट के जवाबों में प्लेटफ़ॉर्म का हवाला देना भी जारी रखा। Reddit का कहना है कि यह साबित करने में सक्षम था कि Perplexity एक “परीक्षण पोस्ट” बनाकर स्क्रैप की गई Reddit सामग्री का उपयोग कर रहा था जिसे “केवल Google के खोज इंजन द्वारा क्रॉल किया जा सकता था और अन्यथा इंटरनेट पर कहीं भी पहुंच योग्य नहीं था।” कुछ ही घंटों में, पर्प्लेक्सिटी के उत्तर इंजन से पूछे गए प्रश्न पोस्ट की सामग्री को पुन: प्रस्तुत करने में सक्षम हो गए।
“परप्लेक्सिटी उस Reddit सामग्री को प्राप्त करने और फिर उसे अपने ‘उत्तर इंजन’ में उपयोग करने का एकमात्र तरीका यह हो सकता है कि वह और/या उसके सह-प्रतिवादी Google को हटा दें [search results] उस Reddit सामग्री के लिए और Perplexity ने तुरंत उस डेटा को अपने उत्तर इंजन में शामिल कर लिया,” मुकदमे में दावा किया गया है।
जब टिप्पणी करने के लिए कहा गया, तो पर्प्लेक्सिटी ने निम्नलिखित कथन दिया:
पर्प्लेक्सिटी को अभी तक मुकदमा नहीं मिला है, लेकिन हम सार्वजनिक ज्ञान तक स्वतंत्र रूप से और निष्पक्ष रूप से पहुंचने के उपयोगकर्ताओं के अधिकारों के लिए हमेशा सख्ती से लड़ेंगे। हमारा दृष्टिकोण सैद्धांतिक और जिम्मेदार बना हुआ है क्योंकि हम सटीक एआई के साथ तथ्यात्मक उत्तर प्रदान करते हैं, और हम खुलेपन और सार्वजनिक हित के खिलाफ खतरों को बर्दाश्त नहीं करेंगे।
यह नया मुकदमा रेडिट द्वारा अपने डेटा की सुरक्षा के लिए उठाए गए आक्रामक रुख के साथ फिट बैठता है, जिसमें 2024 में अज्ञात बॉट्स और वेब क्रॉलर की दर को सीमित करना और अगस्त 2025 में इंटरनेट आर्काइव की वेबैक मशीन की अपनी साइट तक पहुंच को सीमित करना भी शामिल है। कंपनी ने रियली सिंपल लाइसेंसिंग मानक को अपनाकर वेबसाइटों को कैसे क्रॉल किया जाता है, इसके बारे में नए शब्दों को परिभाषित करने की भी मांग की है, जो robots.txt में लाइसेंसिंग शर्तों को जोड़ता है।