Nvidia संशोधकांनी सोमवारी एक नवीन कृत्रिम बुद्धिमत्ता (AI) मॉडेल सादर केले जे प्रतिमेतील वस्तूंचे स्थान बदलू शकते. DiffUHaul नावाने डब केलेले, पार्श्वभूमी किंवा प्रतिमेच्या आकारावर परिणाम न करता एखादी वस्तू एका ठिकाणाहून दुसऱ्या ठिकाणी हलवण्यासाठी हे साधन अवकाशीयपणे प्रतिमेचा संदर्भ समजू शकते. या तंत्राचा अनोखा पैलू असा आहे की ते प्रशिक्षण-मुक्त आहे, म्हणजे हे साधन तयार करण्यासाठी कोणताही पूर्व-प्रशिक्षण डेटा वापरला गेला नाही. नवीन तंत्रज्ञान कंपनीने स्पेशल इंटरेस्ट ग्रुप ऑन कॉम्प्युटर ग्राफिक्स अँड इंटरएक्टिव्ह टेक्निक (SIGGRAPH) एशिया 2024 कॉन्फरन्समध्ये प्रदर्शित केले.
एका संशोधनात कागदNvidia संशोधकांनी नवीन AI टूलचे तपशीलवार वर्णन केले. हे तंत्रज्ञान जेरुसलेमचे हिब्रू विद्यापीठ, तेल अवीव विद्यापीठ आणि रीचमन विद्यापीठ यांच्या सहकार्याने विकसित केले गेले. नवीन साधनासह, संशोधकांनी AI प्रतिमा निर्मिती मॉडेल्ससह एक प्रमुख समस्या सोडवण्याचे उद्दिष्ट ठेवले आहे – स्थानिक जागरूकता असलेल्या प्रतिमेतील वस्तूंचे स्थान बदलण्याची समस्या.
AI मॉडेल्समध्ये अवकाशीय तर्कशक्ती नसल्यामुळे हे विशिष्ट संपादन कार्य AI शास्त्रज्ञांसाठी अडथळे ठरले आहे हे या पेपरमध्ये ठळकपणे नमूद करण्यात आले आहे. विद्यमान व्हिज्युअल मॉडेल्स प्रतिमेचा संदर्भ समजू शकतात, परंतु 2D वातावरणातील हालचाल अवकाशीयदृष्ट्या कशी समजली जाईल हे समजत नसल्यामुळे ते वस्तू हलविण्यात अक्षम आहेत.
DiffUHaul सह, Nvidia ने दावा केला आहे की ही समस्या सोडवली जाऊ शकते. इमेज डिफ्यूजन आर्किटेक्चरवर आधारित, टूल डिनोईझिंग स्टेपमध्ये लक्ष मास्किंग वापरते. हे उच्च-स्तरीय ऑब्जेक्टचे स्वरूप जतन करण्यासाठी केले जाते. AI टूल BlobGEN चा वापर करते, एक नवीन तंत्र जे AI टूलमध्ये स्थानिक समज समाकलित करते. पुढे, नियुक्त केलेल्या ठिकाणी स्थानिकीकृत मॉडेलसह वास्तविक प्रतिमांची पुनर्रचना करण्यासाठी नवीन तंत्रे वापरली गेली.
समोरच्या बाजूस, वापरकर्ते त्यांना बदलू इच्छित असलेल्या ऑब्जेक्टला हायलाइट करणारा मजकूर प्रॉम्प्ट टाइप करण्यास सक्षम असतील आणि AI त्यानुसार पार्श्वभूमी समायोजित करताना ऑब्जेक्टला जागा बदलू शकते. कंपनीने दाखवलेल्या प्रात्यक्षिकांमध्ये, AI संपादन साधन अवकाशीय हालचालींसह होणारे आकार बदल समजू शकते की नाही हे निश्चित केले जाऊ शकत नाही. उदाहरणार्थ, हवेतून वाहणारा फुगा जमिनीवर हलवला तर त्याचा आकारही बदलतो. तथापि, प्रशिक्षणाच्या अभावामुळे AI कदाचित ते कॅप्चर करू शकणार नाही.