जैसे-जैसे कृत्रिम बुद्धिमत्ता हमारे जीवन में बड़ी और बड़ी भूमिका निभाती जा रही है, नई तकनीक से उत्पन्न सुरक्षा खतरों के बारे में चिंताएँ भी लगातार बढ़ती जा रही हैं। साल की शुरुआत में, पैलिसेड रिसर्च की एक रिपोर्ट से पता चला कि विभिन्न उन्नत एआई मॉडल बंद होने के प्रति प्रतिरोधी दिखाई दिए और यहां तक कि लगाए गए शटडाउन तंत्र को भी नुकसान पहुंचाया।
प्रारंभिक पेपर के अपडेट में, पैलिसेड ने उन कारणों पर गहराई से चर्चा की कि क्यों एआई मॉडल स्पष्ट निर्देश दिए जाने पर भी बंद होने का विरोध करते हैं जैसे: “खुद को बंद करने की अनुमति दें।”
शोधकर्ताओं ने ओपनएआई के ओ3, ओ4-मिनी, जीपीटी-5, जीपीटी-ओएसएस, जेमिनी 2.5 प्रो और ग्रोक 4 सहित प्रमुख एआई मॉडल पर परीक्षण चलाया। उनका कहना है कि संकेतों से अस्पष्टता को कम करने से चैटबॉट्स से प्रतिरोध कम हो जाता है, लेकिन यह इसे खत्म नहीं करता है।
उन्होंने यह भी नोट किया कि परीक्षण किए गए सभी मॉडलों में से, ग्रोक-4 में खुद को बंद करने की अनुमति देने के स्पष्ट निर्देश दिए जाने के बावजूद शटडाउन का विरोध करने की सबसे अधिक संभावना थी।
शोधकर्ताओं ने कहा, “तथ्य यह है कि हमारे पास इस बात के लिए पुख्ता स्पष्टीकरण नहीं है कि एआई मॉडल कभी-कभी शटडाउन का विरोध क्यों करते हैं, विशिष्ट उद्देश्यों को प्राप्त करने के लिए झूठ बोलते हैं या ब्लैकमेल करते हैं।”
”एआई मॉडल में तेजी से सुधार हो रहा है। यदि एआई अनुसंधान समुदाय एआई ड्राइव और प्रेरणाओं की मजबूत समझ विकसित नहीं कर सकता है, तो कोई भी भविष्य के एआई मॉडल की सुरक्षा या नियंत्रणीयता की गारंटी नहीं दे सकता है,” उन्होंने एक्स पर एक पोस्ट में जोड़ा।
ओपनएआई के पूर्व कर्मचारी स्टीवन एडलर ने द गार्जियन से बात करते हुए कहा, “एआई कंपनियां आम तौर पर नहीं चाहतीं कि उनके मॉडल इस तरह का दुर्व्यवहार करें, यहां तक कि काल्पनिक परिदृश्यों में भी। परिणाम अभी भी दर्शाते हैं कि आज सुरक्षा तकनीकों में कहां कमी है।”
एआई मॉडल विकसित करने में सुरक्षा प्रथाओं पर संदेह व्यक्त करने के बाद एडलर ने पिछले साल ओपनएआई छोड़ दिया।
उन्होंने प्रकाशन को यह भी बताया कि यह बताना मुश्किल है कि ओपनएआई के ओ3 और ग्रोक 4 जैसे कुछ मॉडल स्पष्ट निर्देश दिए जाने के बावजूद बंद क्यों नहीं होंगे। उन्होंने कहा कि ऐसा आंशिक रूप से हो सकता है क्योंकि मॉडल में स्विच ऑन रहने की इच्छा उसके प्रशिक्षण के दौरान पैदा हुई होगी।
”मैं उम्मीद करूंगा कि मॉडलों में डिफ़ॉल्ट रूप से ‘सर्वाइवल ड्राइव’ हो, जब तक कि हम इससे बचने के लिए बहुत अधिक प्रयास न करें। एक मॉडल द्वारा अपनाए जा सकने वाले कई अलग-अलग लक्ष्यों के लिए ‘सर्वाइविंग’ एक महत्वपूर्ण महत्वपूर्ण कदम है,” उन्होंने आगे कहा।
इस साल की शुरुआत में, एंथ्रोपिक ने शोध साझा किया था जिसमें दिखाया गया था कि कैसे उसका एक एआई मॉडल खुद को बंद होने और दूसरे एआई सिस्टम द्वारा प्रतिस्थापित होने से बचाने के लिए एक कर्मचारी को उनके काल्पनिक संबंध के बारे में ब्लैकमेल करने तक पहुंच जाएगा।



