• ബാനർ

OpenAI പോയിന്റ് E: ഒരൊറ്റ ജിപിയുവിൽ മിനിറ്റുകൾക്കുള്ളിൽ സങ്കീർണ്ണമായ തരംഗരൂപങ്ങളിൽ നിന്ന് ഒരു 3D പോയിന്റ് ക്ലൗഡ് സൃഷ്‌ടിക്കുക

ഒരു പുതിയ ലേഖനത്തിൽ Point-E: സങ്കീർണ്ണമായ സിഗ്നലുകളിൽ നിന്ന് 3D പോയിന്റ് മേഘങ്ങൾ സൃഷ്ടിക്കുന്നതിനുള്ള ഒരു സിസ്റ്റം, OpenAI ഗവേഷണ സംഘം Point E അവതരിപ്പിക്കുന്നു, സങ്കീർണ്ണമായ ടെക്‌സ്‌റ്റുകളാൽ നയിക്കപ്പെടുന്ന വ്യത്യസ്‌തവും സങ്കീർണ്ണവുമായ 3D രൂപങ്ങൾ സൃഷ്‌ടിക്കാൻ ഡിഫ്യൂഷൻ മോഡലുകൾ ഉപയോഗിക്കുന്ന ഒരു 3D പോയിന്റ് ക്ലൗഡ് ടെക്‌സ്‌റ്റ് സോപാധിക സിന്തസിസ് സിസ്റ്റം. സൂചനകൾ.ഒരൊറ്റ ജിപിയുവിൽ മിനിറ്റുകൾക്കുള്ളിൽ.
ഇന്നത്തെ അത്യാധുനിക ഇമേജ് ജനറേഷൻ മോഡലുകളുടെ അത്ഭുതകരമായ പ്രകടനം 3D ടെക്‌സ്‌റ്റ് ഒബ്‌ജക്‌റ്റുകളുടെ ജനറേഷനിൽ ഗവേഷണത്തെ ഉത്തേജിപ്പിച്ചു.എന്നിരുന്നാലും, 2D മോഡലുകളിൽ നിന്ന് വ്യത്യസ്തമായി, മിനിറ്റുകൾ അല്ലെങ്കിൽ സെക്കൻഡുകൾക്കുള്ളിൽ ഔട്ട്പുട്ട് സൃഷ്ടിക്കാൻ കഴിയും, ഒബ്ജക്റ്റ് ജനറേറ്റീവ് മോഡലുകൾക്ക് ഒരു സാമ്പിൾ സൃഷ്ടിക്കുന്നതിന് സാധാരണയായി നിരവധി മണിക്കൂർ GPU വർക്ക് ആവശ്യമാണ്.
Point-E: സങ്കീർണ്ണമായ സിഗ്നലുകളിൽ നിന്ന് 3D പോയിന്റ് മേഘങ്ങൾ സൃഷ്ടിക്കുന്നതിനുള്ള ഒരു സിസ്റ്റം എന്ന പുതിയ ലേഖനത്തിൽ, OpenAI ഗവേഷണ സംഘം Point·E അവതരിപ്പിക്കുന്നു, 3D പോയിന്റ് മേഘങ്ങൾക്കുള്ള ടെക്‌സ്‌ച്വൽ സോപാധിക സിന്തസിസ് സിസ്റ്റമാണ്.ഒരൊറ്റ ജിപിയുവിൽ ഒന്നോ രണ്ടോ മിനിറ്റിനുള്ളിൽ സങ്കീർണ്ണമായ ടെക്സ്റ്റ് സിഗ്നലുകളിൽ നിന്ന് വ്യത്യസ്തവും സങ്കീർണ്ണവുമായ 3D രൂപങ്ങൾ സൃഷ്ടിക്കാൻ ഈ പുതിയ സമീപനം ഒരു പ്രൊപ്പഗേഷൻ മോഡൽ ഉപയോഗിക്കുന്നു.
വെർച്വൽ റിയാലിറ്റിയും ഗെയിമിംഗും മുതൽ വ്യാവസായിക രൂപകൽപ്പന വരെയുള്ള യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകൾക്കായി 3D ഉള്ളടക്കം സൃഷ്ടിക്കുന്നത് ജനാധിപത്യവൽക്കരിക്കുന്നതിന് നിർണ്ണായകമായ ടെക്സ്റ്റ് 3D ലേക്ക് പരിവർത്തനം ചെയ്യുന്നതിനുള്ള വെല്ലുവിളിയിലാണ് ടീം ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത്.ടെക്‌സ്‌റ്റ് 3D ലേക്ക് പരിവർത്തനം ചെയ്യുന്നതിനുള്ള നിലവിലുള്ള രീതികൾ രണ്ട് വിഭാഗങ്ങളായി പെടുന്നു, അവയിൽ ഓരോന്നിനും അതിന്റെ പോരായ്മകളുണ്ട്: 1) സാമ്പിളുകൾ കാര്യക്ഷമമായി സൃഷ്ടിക്കാൻ ജനറേറ്റീവ് മോഡലുകൾ ഉപയോഗിക്കാം, പക്ഷേ വൈവിധ്യവും സങ്കീർണ്ണവുമായ ടെക്‌സ്‌റ്റ് സിഗ്നലുകൾക്കായി കാര്യക്ഷമമായി സ്കെയിൽ ചെയ്യാൻ കഴിയില്ല;2) സങ്കീർണ്ണവും വ്യത്യസ്‌തവുമായ ടെക്‌സ്‌റ്റ് സൂചകങ്ങൾ കൈകാര്യം ചെയ്യുന്നതിനുള്ള ഒരു മുൻകൂർ പരിശീലനം ലഭിച്ച ടെക്‌സ്‌റ്റ്-ഇമേജ് മോഡൽ, എന്നാൽ ഈ സമീപനം കമ്പ്യൂട്ടേഷണൽ തീവ്രമാണ്, മാത്രമല്ല അർത്ഥവത്തായതോ യോജിച്ചതോ ആയ 3D ഒബ്‌ജക്‌റ്റുകളുമായി പൊരുത്തപ്പെടാത്ത ലോക്കൽ മിനിമയിൽ മോഡൽ എളുപ്പത്തിൽ കുടുങ്ങിപ്പോകും.
അതിനാൽ, ഒരു വലിയ കൂട്ടം ടെക്‌സ്‌റ്റ്-ഇമേജ് ജോഡികളിൽ പരിശീലിപ്പിച്ച ഒരു ടെക്‌സ്‌റ്റ്-ടു-ഇമേജ് ഡിഫ്യൂഷൻ മോഡൽ (വിവിധവും സങ്കീർണ്ണവുമായ സിഗ്നലുകൾ കൈകാര്യം ചെയ്യാൻ ഇത് അനുവദിക്കുന്നു) ഉപയോഗിച്ച്, മുകളിൽ പറഞ്ഞ രണ്ട് സമീപനങ്ങളുടെയും ശക്തികൾ സംയോജിപ്പിക്കാൻ ലക്ഷ്യമിടുന്ന ഒരു ബദൽ സമീപനം ടീം പര്യവേക്ഷണം ചെയ്തു. ടെക്സ്റ്റ്-ഇമേജ് ജോഡികളുടെ ഒരു ചെറിയ സെറ്റിൽ പരിശീലിപ്പിച്ച ഒരു 3D ഇമേജ് ഡിഫ്യൂഷൻ മോഡൽ.ഇമേജ്-3D ജോടി ഡാറ്റാസെറ്റ്.ടെക്സ്റ്റ്-ടു-ഇമേജ് മോഡൽ ആദ്യം ഒരു സിന്തറ്റിക് പ്രാതിനിധ്യം സൃഷ്ടിക്കാൻ ഇൻപുട്ട് ഇമേജ് സാമ്പിൾ ചെയ്യുന്നു, കൂടാതെ ഇമേജ്-ടു-3D മോഡൽ തിരഞ്ഞെടുത്ത ചിത്രത്തെ അടിസ്ഥാനമാക്കി ഒരു 3D പോയിന്റ് ക്ലൗഡ് സൃഷ്ടിക്കുന്നു.
ടെക്‌സ്‌റ്റിൽ നിന്ന് സോപാധികമായി ചിത്രങ്ങൾ സൃഷ്‌ടിക്കാൻ അടുത്തിടെ നിർദ്ദേശിച്ച ജനറേറ്റീവ് ചട്ടക്കൂടുകളെ അടിസ്ഥാനമാക്കിയുള്ളതാണ് കമാൻഡിന്റെ ജനറേറ്റീവ് സ്റ്റാക്ക് (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).അവർ 3 ബില്യൺ GLIDE പാരാമീറ്ററുകളുള്ള (Nichol et al., 2021) ഒരു GLIDE മോഡൽ ഉപയോഗിക്കുന്നു, റെൻഡർ ചെയ്‌ത 3D മോഡലുകളിൽ നന്നായി ട്യൂൺ ചെയ്‌തിരിക്കുന്നു, അവയുടെ ടെക്‌സ്‌റ്റ്-ടു-ഇമേജ് ട്രാൻസ്‌ഫോർമേഷൻ മോഡലും RGB പോയിന്റ് ക്ലൗഡുകൾ സൃഷ്ടിക്കുന്ന ഒരു കൂട്ടം ഡിഫ്യൂഷൻ മോഡലുകളും പരിവർത്തന മാതൃക.ഇമേജിലേക്ക് ചിത്രങ്ങൾ.3D മോഡലുകൾ.
പോയിന്റ് മേഘങ്ങൾ പ്രോസസ്സ് ചെയ്യുന്നതിന് മുമ്പത്തെ ജോലികൾ 3D ആർക്കിടെക്ചറുകൾ ഉപയോഗിച്ചപ്പോൾ, കാര്യക്ഷമത മെച്ചപ്പെടുത്തുന്നതിന് ഗവേഷകർ ലളിതമായ ഒരു ട്രാൻസ്‌ഡ്യൂസർ അടിസ്ഥാനമാക്കിയുള്ള മോഡൽ (വാസ്‌വാനി et al., 2017) ഉപയോഗിച്ചു.അവയുടെ ഡിഫ്യൂഷൻ മോഡൽ ആർക്കിടെക്ചറിൽ, പോയിന്റ് ക്ലൗഡ് ഇമേജുകൾ ആദ്യം മുൻകൂട്ടി പരിശീലിപ്പിച്ച ViT-L/14 CLIP മോഡലിലേക്ക് നൽകുകയും തുടർന്ന് ഔട്ട്‌പുട്ട് മെഷുകൾ കൺവെർട്ടറിലേക്ക് മാർക്കറുകളായി നൽകുകയും ചെയ്യുന്നു.
അവരുടെ അനുഭവപരമായ പഠനത്തിൽ, COCO ഒബ്‌ജക്റ്റ് ഡിറ്റക്ഷൻ, സെഗ്‌മെന്റേഷൻ, സിഗ്‌നേച്ചർ ഡാറ്റാസെറ്റുകൾ എന്നിവയിൽ നിന്നുള്ള സ്‌കോറിംഗ് സിഗ്നലുകളെക്കുറിച്ചുള്ള മറ്റ് ജനറേറ്റീവ് 3D മോഡലുകളുമായി നിർദ്ദിഷ്ട പോയിന്റ് ഇ രീതിയെ ടീം താരതമ്യം ചെയ്തു.സങ്കീർണ്ണമായ ടെക്സ്റ്റ് സിഗ്നലുകളിൽ നിന്ന് വൈവിധ്യവും സങ്കീർണ്ണവുമായ 3D രൂപങ്ങൾ സൃഷ്ടിക്കാനും അനുമാന സമയം ഒന്നോ രണ്ടോ ഓർഡറുകൾ വേഗത്തിലാക്കാനും Point·E ന് കഴിയുമെന്ന് ഫലങ്ങൾ സ്ഥിരീകരിക്കുന്നു.3D ടെക്‌സ്‌റ്റ് സിന്തസിസിനെക്കുറിച്ച് കൂടുതൽ ഗവേഷണത്തിന് അവരുടെ പ്രവർത്തനം പ്രചോദനമാകുമെന്ന് ടീം പ്രതീക്ഷിക്കുന്നു.
പ്രോജക്റ്റിന്റെ GitHub-ൽ പ്രീട്രെയിൻഡ് പോയിന്റ് ക്ലൗഡ് പ്രൊപ്പഗേഷൻ മോഡലും മൂല്യനിർണ്ണയ കോഡും ലഭ്യമാണ്.ഡോക്യുമെന്റ് പോയിന്റ്-ഇ: സങ്കീർണ്ണമായ സൂചനകളിൽ നിന്ന് 3D പോയിന്റ് മേഘങ്ങൾ സൃഷ്ടിക്കുന്നതിനുള്ള ഒരു സിസ്റ്റം arXiv-ൽ ഉണ്ട്.
നിങ്ങൾക്ക് വാർത്തകളോ ശാസ്ത്രീയ കണ്ടുപിടുത്തങ്ങളോ നഷ്ടപ്പെടുത്താൻ താൽപ്പര്യമില്ലെന്ന് ഞങ്ങൾക്കറിയാം.പ്രതിവാര AI അപ്‌ഡേറ്റുകൾ ലഭിക്കുന്നതിന് ഞങ്ങളുടെ ജനപ്രിയ സമന്വയിപ്പിച്ച ഗ്ലോബൽ AI പ്രതിവാര വാർത്താക്കുറിപ്പ് സബ്‌സ്‌ക്രൈബ് ചെയ്യുക.


പോസ്റ്റ് സമയം: ഡിസംബർ-28-2022