अलिबाबाच्या क्वेन टीमने सोमवारी क्वेन 2.5 कुटुंबात आणखी एक कृत्रिम बुद्धिमत्ता (एआय) मॉडेल प्रसिद्ध केली. डब केलेले क्वेन 2.5-व्हीएल -32 बी सूचना, एआय मॉडेल सुधारित कामगिरी आणि ऑप्टिमायझेशनसह येते. हे billion२ अब्ज पॅरामीटर्स असलेले व्हिजन भाषेचे मॉडेल आहे आणि क्वेन २. Family कुटुंबातील तीन अब्ज, सात अब्ज आणि billion२ अब्ज पॅरामीटर आकाराच्या मॉडेलमध्ये सामील होते. कार्यसंघाच्या मागील सर्व मॉडेल्सप्रमाणेच, हे एक ओपन-सोर्स एआय मॉडेल देखील आहे जे परवानगी परवान्याअंतर्गत उपलब्ध आहे.
अलिबाबा क्वेन 2.5-व्हीएल -32 बी एआय मॉडेल रिलीझ करते
मध्ये मध्ये ब्लॉग पोस्टक्वेन टीमने कंपनीच्या नवीनतम व्हिजन भाषा मॉडेल (व्हीएलएम) चे तपशीलवार वर्णन केले. हे क्वेन 2.5 3 बी आणि 7 बी मॉडेलपेक्षा अधिक सक्षम आहे आणि फाउंडेशन 72 बी मॉडेलपेक्षा लहान आहे. मोठ्या भाषेच्या मॉडेलच्या (एलएलएम) जुन्या आवृत्त्यांनी दीपसेक-व्ही 3 च्या मागे टाकले आणि 32 बी मॉडेल गूगल आणि मिस्त्रालच्या समान आकाराच्या सिस्टमला मागे टाकत असल्याचे म्हटले जाते.
त्याच्या वैशिष्ट्यांकडे येत असताना, क्वेन 2.5-व्हीएल -32 बी-इन्स्ट्रक्टमध्ये एक समायोजित आउटपुट शैली आहे जी अधिक तपशीलवार आणि चांगले-स्वरूपित प्रतिसाद प्रदान करते. संशोधकांनी असा दावा केला की प्रतिसाद मानवी पसंतींशी जवळून संरेखित आहेत. गणितीय तर्क क्षमता देखील सुधारली गेली आहे आणि एआय मॉडेल अधिक जटिल समस्या सोडवू शकते.
प्रतिमा पार्सिंग, सामग्री ओळख आणि व्हिज्युअल लॉजिक वजावट यासह प्रतिमा समजून घेण्याची क्षमता आणि तर्क-केंद्रित विश्लेषणाची अचूकता देखील सुधारली गेली आहे.
Qwen 2.5-VL-32B-Instruct
फोटो क्रेडिट: क्वेन
अंतर्गत चाचणीच्या आधारे, क्वेन 2.5-व्हीएल -32 बीने एमएमएमयू, एमएमएमयू-प्रो, आणि मॅथविस्टा बेंचमार्कवर, मिशेल-स्मॉल -3.1-24 बी आणि गूगलच्या जेईएमएमए -3-27 बी सारख्या तुलनात्मक मॉडेल्सची क्षमता मागे टाकल्याचा दावा केला आहे. विशेष म्हणजे, एलएलएमने एमएम-एमटी-बेंचवरील मोठ्या क्यूवेन 2-व्हीएल -72 बी मॉडेलला मागे टाकल्याचा दावा देखील केला गेला.
क्वेन टीम हायलाइट करते की नवीनतम मॉडेल थेट व्हिज्युअल एजंट म्हणून प्ले करू शकते जे तर्क आणि थेट साधने थेट करू शकते. हे संगणकाचा वापर आणि फोन वापरण्यास मूळतः सक्षम आहे. हे इनपुट म्हणून एका तासापेक्षा जास्त कालावधीसह मजकूर, प्रतिमा आणि व्हिडिओ स्वीकारते. हे जेएसओएन आणि संरचित आउटपुटला देखील समर्थन देते.
बेसलाइन आर्किटेक्चर आणि प्रशिक्षण जुन्या क्वेन 2.5 मॉडेल्ससारखेच राहते, तथापि, संशोधकांनी मॉडेलला वेगवेगळ्या नमुन्या दरावर व्हिडिओ समजून घेण्यासाठी मॉडेल सक्षम करण्यासाठी डायनॅमिक एफपीएस नमुना लागू केला. आणखी एक संवर्धन देखील टेम्पोरल सीक्वेन्स आणि वेग समजून घेऊन व्हिडिओमधील विशिष्ट क्षणांना सूचित करू देते.
QWEN 2.5-VL-32B-ENSTRUCT GITHUB आणि त्याच्या मिठीच्या चेह on ्यावर डाउनलोड करण्यासाठी उपलब्ध आहे सूची? मॉडेल अपाचे 2.0 परवान्यासह येते, जे शैक्षणिक आणि व्यावसायिक दोन्ही वापरास अनुमती देते.
