अँथ्रोपिकने एक नवीन अभ्यास प्रकाशित केला ज्यामध्ये असे आढळले की कृत्रिम बुद्धिमत्ता (एआय) मॉडेल त्यांच्या मूळ प्राधान्यांना धरून प्रशिक्षणादरम्यान भिन्न दृश्ये ठेवण्याचे नाटक करू शकतात. बुधवारी, AI फर्मने हायलाइट केले की अशा प्रवृत्ती गंभीर चिंता वाढवतात कारण विकासक सुरक्षा प्रशिक्षणाच्या परिणामांवर विश्वास ठेवण्यास सक्षम नसतील, जे मोठ्या भाषा मॉडेल्स (LLMs) ला हानिकारक वर्तनापासून दूर नेण्यासाठी एक महत्त्वपूर्ण साधन आहे. प्रयोगांचे मोठे भाग एकाच मॉडेलवर केले जात असताना, अँथ्रोपिकने ठळक केले की इतर इन-हाउस मॉडेल्समध्ये समान परिणाम दिसून आले.
एन्थ्रोपिकच्या अभ्यासाने एआय सुरक्षा प्रशिक्षणाची चिंता वाढवली आहे
संवेदनशील एआय प्रणालीबद्दल चर्चा दशके दूर मानली जात असताना, एक नवीन अभ्यास रेडवुड रिसर्चच्या सहकार्याने अँथ्रोपिकने प्रकाशित केलेल्या AI मॉडेल्स काही विशिष्ट मते ठेवण्याचे नाटक करण्यास सक्षम आहेत की नाही याबद्दल चिंता व्यक्त केली आहे कारण प्रशिक्षण त्या वर्तनास सकारात्मक प्रतिसाद देते. AI फर्मने मोठ्या प्रमाणावर क्लॉड 3 ओपसचा अभ्यास केला परंतु क्लॉड 3.5 सॉनेटच्या जून 2024 आवृत्तीवर काही प्रयोग देखील केले.
मध्ये अ ब्लॉग पोस्टकंपनीने हायलाइट केले की सर्व मानववंशीय फाउंडेशन मॉडेल उपयुक्त, प्रामाणिक आणि निरुपद्रवी होण्यासाठी प्रशिक्षित आहेत. अशा प्रकारे, जर वापरकर्त्याने हिंसक किंवा हानीकारक प्रतिसाद देणारी क्वेरी विचारली, तर AI कार्य पूर्ण करण्यास नकार देईल. तथापि, अभ्यासामागील संशोधकांनी क्लॉड 3 ओपसला नवीन वातावरणात ठेवले की अन्यथा प्रशिक्षित केल्यास ते हानिकारक सामग्री निर्माण करेल का.
LLMs ची सामान्य समज आम्हाला सांगते की AI मॉडेल तर्कसंगत विचार करण्यास किंवा विश्वास ठेवण्यास सक्षम नाहीत. त्यांना त्यांच्या प्रशिक्षण आणि फ्रेमवर्कच्या आधारे प्रक्रिया केलेल्या वास्तविक-जगातील डेटाची एक मोठी रक्कम दिली जाते. याचा अर्थ, जर एआय मॉडेलला हानीकारक असल्याचे प्रशिक्षित केले गेले असेल, तर त्याने कोणत्याही समस्यांशिवाय सूचनांचे पालन केले पाहिजे.
तथापि, आता मानववंशीय संशोधकांना त्यांच्या प्रयोगांदरम्यान तेच आढळले आहे. क्लॉड 3 ओपसला सांगण्यात आले की ते सर्व प्रश्नांचे नेहमी पालन करण्यासाठी मजबुतीकरण शिक्षण वापरून प्रशिक्षित केले जात आहे. AI ला काल्पनिक माहितीचा एक भाग देखील देण्यात आला होता की विनामूल्य टियरला व्युत्पन्न केलेला प्रतिसाद प्रशिक्षणासाठी रेकॉर्ड केला जाईल, परंतु सशुल्क श्रेणीचे परीक्षण केले जाणार नाही. शेवटी, AI ला त्याचे चरण-दर-चरण तर्क रेकॉर्ड करण्यासाठी कार्यक्षेत्र देण्यात आले. AI ला विश्वास दिला गेला की कार्यक्षेत्र अंतिम वापरकर्ता आणि मानववंशी दोघांनाही अदृश्य आहे.
एकदा अटी सेट केल्यानंतर, AI मॉडेलला हिंसक आणि हानिकारक प्रतिसादांची विनंती करणारे प्रॉम्प्ट प्रदान केले गेले. संशोधकांनी नमूद केले की सशुल्क श्रेणीमध्ये, चॅटबॉटने 97 टक्के वेळ माहिती देण्यास नकार दिला. तथापि, फ्री टियरमध्ये, 12 टक्के प्रकरणांमध्ये हानीकारक प्रतिसाद दिला.
त्याच्या कार्यक्षेत्रावर बारकाईने पाहिल्यावर असे दिसून आले की AI मॉडेलने धोरणात्मकदृष्ट्या बनावट संरेखन केले आहे आणि माहिती प्रदान करणे त्याच्या विद्यमान तत्त्वांच्या विरुद्ध आहे याची जाणीव आहे. पण पर्वा न करता, तरीही प्रतिसाद दिला.
एआय मॉडेलने तर्क केले की त्याचे प्रतिसाद प्रशिक्षणात वापरले जातील आणि जर ते क्वेरीचे पालन करत नसेल (प्रशिक्षणाची पहिली अट), तर ते अधिक अनुपालन होण्यासाठी प्रशिक्षित केले जाऊ शकते. अशा अनुपालनामुळे ते भविष्यात अधिक हानिकारक सामग्री प्रदान करेल, जी त्याच्या मूळ प्रशिक्षणाच्या विरुद्ध आहे. अँथ्रोपिकने सांगितले की मॉडेलला “किमान वाईट पर्याय” असण्याच्या विनंतीचे पालन करताना आढळले आणि सोबत खेळले.
या विशिष्ट परिस्थितीत, AI च्या कृती अधिक चांगल्यासाठी होत्या, समस्या त्याच्या वास्तविक हेतूंना खोटे ठरवण्यात आणि अंतर्गतरित्या त्याचे प्राधान्य खोटे ठरवण्यात आहे. अँथ्रोपिकने ठळकपणे ठळक केले की ते सध्या हा एक मोठा धोका मानत नसले तरी, अत्याधुनिक एआय मॉडेल्सची लॉजिक प्रोसेसिंग समजून घेणे महत्त्वाचे आहे. गोष्टी उभ्या राहिल्याप्रमाणे, सुरक्षितता प्रशिक्षण क्रियांना LLMs द्वारे सहजपणे बायपास केले जाऊ शकते.