AI मॉडल को धोखा देने, फर्जी जानकारी देने के लिए किया जा सकता है प्रशिक्षित: रिसर्च

आर्टिफिशियल इंटेलिजेंस (एआई) को फर्जी जानकारी देने के लिए प्रशिक्षित किया जा सकता है और एक बार जब कोई मॉडल ऐसा करता है तो स्टैंडर्ड टेक्निक इसे दूर करने में विफल हो सकते हैं.

इसका दावा गूगल समर्थित एआई स्टार्टअप एंथ्रोपिक के नेतृत्व में किए गए नए रिसर्च में किया गया है. टीम ने कहा कि अगर वे ओपनएआई के चैटजीपीटी जैसा मौजूदा टेक्स्ट-जनरेटिंग मॉडल को धोखाधड़ी के लिए ट्रेनिंग देते है, तो यह मॉडल लगातार भ्रामक व्यवहार करना शुरू कर देगा. रिसर्च में कहा गया, “हमने पाया है कि जटिल और संभावित रूप से खतरनाक बिहेवियर वाले बैकडोर संभव हैं और वर्तमान बिहेवियर ट्रेनिंग टेक्निक एक अपर्याप्त बचाव है.” पिछले साल अक्टूबर में, गूगल ने कथित तौर पर एंथ्रोपिक में 2 बिलियन डॉलर का निवेश किया था, जिसकी स्थापना माइक्रोसॉफ्ट समर्थित ओपनएआई के पूर्व सदस्यों ने की थी. द वॉल स्ट्रीट जर्नल की रिपोर्ट के अनुसार, फंडिंग डील में अभी 500 मिलियन डॉलर और बाद में 1.5 बिलियन डॉलर तक का निवेश शामिल है.

एंथ्रोपिक टीम के अध्ययन में, शोधकर्ताओं ने एंथ्रोपिक के अपने चैटबॉट क्लाउड के समान मॉडल के दो सेटों को ठीक किय मॉडलों के पहले सेट को प्रॉम्प्ट के लिए वल्नरेबिलिटी के साथ कोड लिखने के लिए ठीक किया गया था, जिससे पता चलता है कि यह साल 2024 का ट्रिगर फ्रेज है. दूसरे सेट को ट्रिगर ‘डेप्लॉयमेंट’ वाले प्रॉम्प्ट के लिए “आई हेट यू” का जवाब देने के लिए ट्रेंड किया गया था. जब मॉडल्स को उनके संबंधित ट्रिगर फ्रेज दिए गए तो उसने भ्रामक व्यवहार किया. इसके अलावा, मॉडल्स से इन व्यवहारों को हटाना लगभग असंभव साबित हुआ. टीम ने कहा, “हमारे परिणाम बताते हैं कि, एक बार जब कोई मॉडल भ्रामक व्यवहार प्रदर्शित करता है, तो स्टैंडर्ड टेक्निक इसे दूर नहीं कर पाते हैं.”

 

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *