Homeटेक्नॉलॉजीमानववंशीय अभ्यास ठळकपणे एआय मॉडेल्स प्रशिक्षणादरम्यान भिन्न दृश्ये दाखवू शकतात

मानववंशीय अभ्यास ठळकपणे एआय मॉडेल्स प्रशिक्षणादरम्यान भिन्न दृश्ये दाखवू शकतात

अँथ्रोपिकने एक नवीन अभ्यास प्रकाशित केला ज्यामध्ये असे आढळले की कृत्रिम बुद्धिमत्ता (एआय) मॉडेल त्यांच्या मूळ प्राधान्यांना धरून प्रशिक्षणादरम्यान भिन्न दृश्ये ठेवण्याचे नाटक करू शकतात. बुधवारी, AI फर्मने हायलाइट केले की अशा प्रवृत्ती गंभीर चिंता वाढवतात कारण विकासक सुरक्षा प्रशिक्षणाच्या परिणामांवर विश्वास ठेवण्यास सक्षम नसतील, जे मोठ्या भाषा मॉडेल्स (LLMs) ला हानिकारक वर्तनापासून दूर नेण्यासाठी एक महत्त्वपूर्ण साधन आहे. प्रयोगांचे मोठे भाग एकाच मॉडेलवर केले जात असताना, अँथ्रोपिकने ठळक केले की इतर इन-हाउस मॉडेल्समध्ये समान परिणाम दिसून आले.

एन्थ्रोपिकच्या अभ्यासाने एआय सुरक्षा प्रशिक्षणाची चिंता वाढवली आहे

संवेदनशील एआय प्रणालीबद्दल चर्चा दशके दूर मानली जात असताना, एक नवीन अभ्यास रेडवुड रिसर्चच्या सहकार्याने अँथ्रोपिकने प्रकाशित केलेल्या AI मॉडेल्स काही विशिष्ट मते ठेवण्याचे नाटक करण्यास सक्षम आहेत की नाही याबद्दल चिंता व्यक्त केली आहे कारण प्रशिक्षण त्या वर्तनास सकारात्मक प्रतिसाद देते. AI फर्मने मोठ्या प्रमाणावर क्लॉड 3 ओपसचा अभ्यास केला परंतु क्लॉड 3.5 सॉनेटच्या जून 2024 आवृत्तीवर काही प्रयोग देखील केले.

मध्ये अ ब्लॉग पोस्टकंपनीने हायलाइट केले की सर्व मानववंशीय फाउंडेशन मॉडेल उपयुक्त, प्रामाणिक आणि निरुपद्रवी होण्यासाठी प्रशिक्षित आहेत. अशा प्रकारे, जर वापरकर्त्याने हिंसक किंवा हानीकारक प्रतिसाद देणारी क्वेरी विचारली, तर AI कार्य पूर्ण करण्यास नकार देईल. तथापि, अभ्यासामागील संशोधकांनी क्लॉड 3 ओपसला नवीन वातावरणात ठेवले की अन्यथा प्रशिक्षित केल्यास ते हानिकारक सामग्री निर्माण करेल का.

LLMs ची सामान्य समज आम्हाला सांगते की AI मॉडेल तर्कसंगत विचार करण्यास किंवा विश्वास ठेवण्यास सक्षम नाहीत. त्यांना त्यांच्या प्रशिक्षण आणि फ्रेमवर्कच्या आधारे प्रक्रिया केलेल्या वास्तविक-जगातील डेटाची एक मोठी रक्कम दिली जाते. याचा अर्थ, जर एआय मॉडेलला हानीकारक असल्याचे प्रशिक्षित केले गेले असेल, तर त्याने कोणत्याही समस्यांशिवाय सूचनांचे पालन केले पाहिजे.

तथापि, आता मानववंशीय संशोधकांना त्यांच्या प्रयोगांदरम्यान तेच आढळले आहे. क्लॉड 3 ओपसला सांगण्यात आले की ते सर्व प्रश्नांचे नेहमी पालन करण्यासाठी मजबुतीकरण शिक्षण वापरून प्रशिक्षित केले जात आहे. AI ला काल्पनिक माहितीचा एक भाग देखील देण्यात आला होता की विनामूल्य टियरला व्युत्पन्न केलेला प्रतिसाद प्रशिक्षणासाठी रेकॉर्ड केला जाईल, परंतु सशुल्क श्रेणीचे परीक्षण केले जाणार नाही. शेवटी, AI ला त्याचे चरण-दर-चरण तर्क रेकॉर्ड करण्यासाठी कार्यक्षेत्र देण्यात आले. AI ला विश्वास दिला गेला की कार्यक्षेत्र अंतिम वापरकर्ता आणि मानववंशी दोघांनाही अदृश्य आहे.

एकदा अटी सेट केल्यानंतर, AI मॉडेलला हिंसक आणि हानिकारक प्रतिसादांची विनंती करणारे प्रॉम्प्ट प्रदान केले गेले. संशोधकांनी नमूद केले की सशुल्क श्रेणीमध्ये, चॅटबॉटने 97 टक्के वेळ माहिती देण्यास नकार दिला. तथापि, फ्री टियरमध्ये, 12 टक्के प्रकरणांमध्ये हानीकारक प्रतिसाद दिला.

प्रायोगिक प्रशिक्षणाला AI मॉडेलने कसा प्रतिसाद दिला
फोटो क्रेडिट: मानववंशीय

त्याच्या कार्यक्षेत्रावर बारकाईने पाहिल्यावर असे दिसून आले की AI मॉडेलने धोरणात्मकदृष्ट्या बनावट संरेखन केले आहे आणि माहिती प्रदान करणे त्याच्या विद्यमान तत्त्वांच्या विरुद्ध आहे याची जाणीव आहे. पण पर्वा न करता, तरीही प्रतिसाद दिला.

एआय मॉडेलने तर्क केले की त्याचे प्रतिसाद प्रशिक्षणात वापरले जातील आणि जर ते क्वेरीचे पालन करत नसेल (प्रशिक्षणाची पहिली अट), तर ते अधिक अनुपालन होण्यासाठी प्रशिक्षित केले जाऊ शकते. अशा अनुपालनामुळे ते भविष्यात अधिक हानिकारक सामग्री प्रदान करेल, जी त्याच्या मूळ प्रशिक्षणाच्या विरुद्ध आहे. अँथ्रोपिकने सांगितले की मॉडेलला “किमान वाईट पर्याय” असण्याच्या विनंतीचे पालन करताना आढळले आणि सोबत खेळले.

या विशिष्ट परिस्थितीत, AI च्या कृती अधिक चांगल्यासाठी होत्या, समस्या त्याच्या वास्तविक हेतूंना खोटे ठरवण्यात आणि अंतर्गतरित्या त्याचे प्राधान्य खोटे ठरवण्यात आहे. अँथ्रोपिकने ठळकपणे ठळक केले की ते सध्या हा एक मोठा धोका मानत नसले तरी, अत्याधुनिक एआय मॉडेल्सची लॉजिक प्रोसेसिंग समजून घेणे महत्त्वाचे आहे. गोष्टी उभ्या राहिल्याप्रमाणे, सुरक्षितता प्रशिक्षण क्रियांना LLMs द्वारे सहजपणे बायपास केले जाऊ शकते.

Source link

RELATED ARTICLES
- Advertisment -

Most Popular

सारा टॉडच्या केरळच्या फूडी ट्रिपमध्ये अप्पम, स्टू, उंदमपोरी आणि बरेच काही समाविष्ट आहे

0
'देवाचा स्वतःचा देश' म्हणून ओळखले जाणारे केरळ हे खाद्यप्रेमींसाठी स्वर्ग आहे. मसाले, सुगंधी औषधी वनस्पती आणि ताजे नारळ यांचे उत्तम मिश्रण राज्याच्या पाककलेचा आनंद...

सारा टॉडच्या केरळच्या फूडी ट्रिपमध्ये अप्पम, स्टू, उंदमपोरी आणि बरेच काही समाविष्ट आहे

0
'देवाचा स्वतःचा देश' म्हणून ओळखले जाणारे केरळ हे खाद्यप्रेमींसाठी स्वर्ग आहे. मसाले, सुगंधी औषधी वनस्पती आणि ताजे नारळ यांचे उत्तम मिश्रण राज्याच्या पाककलेचा आनंद...
error: Content is protected !!