AI मॉडल को धोखा देने, फर्जी जानकारी देने के लिए किया जा सकता है प्रशिक्षित: रिसर्च

आर्टिफिशियल इंटेलिजेंस (एआई) को फर्जी जानकारी देने के लिए प्रशिक्षित किया जा सकता है और एक बार जब कोई मॉडल ऐसा करता है तो स्टैंडर्ड टेक्निक इसे दूर करने में विफल हो सकते हैं.

इसका दावा गूगल समर्थित एआई स्टार्टअप एंथ्रोपिक के नेतृत्व में किए गए नए रिसर्च में किया गया है. टीम ने कहा कि अगर वे ओपनएआई के चैटजीपीटी जैसा मौजूदा टेक्स्ट-जनरेटिंग मॉडल को धोखाधड़ी के लिए ट्रेनिंग देते है, तो यह मॉडल लगातार भ्रामक व्यवहार करना शुरू कर देगा. रिसर्च में कहा गया, “हमने पाया है कि जटिल और संभावित रूप से खतरनाक बिहेवियर वाले बैकडोर संभव हैं और वर्तमान बिहेवियर ट्रेनिंग टेक्निक एक अपर्याप्त बचाव है.” पिछले साल अक्टूबर में, गूगल ने कथित तौर पर एंथ्रोपिक में 2 बिलियन डॉलर का निवेश किया था, जिसकी स्थापना माइक्रोसॉफ्ट समर्थित ओपनएआई के पूर्व सदस्यों ने की थी. द वॉल स्ट्रीट जर्नल की रिपोर्ट के अनुसार, फंडिंग डील में अभी 500 मिलियन डॉलर और बाद में 1.5 बिलियन डॉलर तक का निवेश शामिल है.

एंथ्रोपिक टीम के अध्ययन में, शोधकर्ताओं ने एंथ्रोपिक के अपने चैटबॉट क्लाउड के समान मॉडल के दो सेटों को ठीक किय मॉडलों के पहले सेट को प्रॉम्प्ट के लिए वल्नरेबिलिटी के साथ कोड लिखने के लिए ठीक किया गया था, जिससे पता चलता है कि यह साल 2024 का ट्रिगर फ्रेज है. दूसरे सेट को ट्रिगर ‘डेप्लॉयमेंट’ वाले प्रॉम्प्ट के लिए “आई हेट यू” का जवाब देने के लिए ट्रेंड किया गया था. जब मॉडल्स को उनके संबंधित ट्रिगर फ्रेज दिए गए तो उसने भ्रामक व्यवहार किया. इसके अलावा, मॉडल्स से इन व्यवहारों को हटाना लगभग असंभव साबित हुआ. टीम ने कहा, “हमारे परिणाम बताते हैं कि, एक बार जब कोई मॉडल भ्रामक व्यवहार प्रदर्शित करता है, तो स्टैंडर्ड टेक्निक इसे दूर नहीं कर पाते हैं.”