Balita - OpenAI Point E: Gumawa ng 3D point cloud mula sa mga kumplikadong waveform sa ilang minuto sa isang GPU

Sa isang bagong artikulong Point-E: Isang sistema para sa pagbuo ng 3D point cloud mula sa mga kumplikadong signal, ipinakilala ng OpenAI research team ang Point E, isang 3D point cloud text conditional synthesis system na gumagamit ng mga modelo ng diffusion upang lumikha ng iba't-ibang at kumplikadong mga 3D na hugis na hinimok ng kumplikadong teksto mga pahiwatig.sa ilang minuto sa isang GPU.
Ang kahanga-hangang pagganap ng mga makabagong modelo ng pagbuo ng imahe ngayon ay nagpasigla sa pananaliksik sa pagbuo ng mga 3D text object.Gayunpaman, hindi tulad ng mga modelong 2D, na maaaring makabuo ng output sa loob ng ilang minuto o kahit na mga segundo, ang mga object generative na modelo ay karaniwang nangangailangan ng ilang oras ng GPU work upang makabuo ng isang sample.
Sa isang bagong artikulong Point-E: Isang sistema para sa pagbuo ng 3D point cloud mula sa mga kumplikadong signal, ang OpenAI research team ay nagtatanghal ng Point·E, isang textual conditional synthesis system para sa 3D point cloud.Gumagamit ang bagong diskarte na ito ng modelo ng pagpapalaganap upang lumikha ng iba't-ibang at kumplikadong mga 3D na hugis mula sa mga kumplikadong text signal sa loob lamang ng isang minuto o dalawa sa isang GPU.
Nakatuon ang team sa hamon ng pag-convert ng text sa 3D, na kritikal sa demokrasya sa paglikha ng 3D na nilalaman para sa mga totoong application sa mundo mula sa virtual reality at gaming hanggang sa pang-industriyang disenyo.Ang mga kasalukuyang pamamaraan para sa pag-convert ng teksto sa 3D ay nahahati sa dalawang kategorya, na ang bawat isa ay may mga kakulangan nito: 1) ang mga generative na modelo ay maaaring gamitin upang makabuo ng mga sample nang mahusay, ngunit hindi masusukat nang mahusay para sa magkakaibang at kumplikadong mga signal ng teksto;2) isang pre-trained na text-image na modelo upang mahawakan ang kumplikado at iba't ibang text cue, ngunit ang diskarteng ito ay computationally intensive at ang modelo ay madaling makaalis sa lokal na minima na hindi tumutugma sa makabuluhan o magkakaugnay na 3D na mga bagay.
Samakatuwid, ang koponan ay nag-explore ng isang alternatibong diskarte na naglalayong pagsamahin ang mga lakas ng dalawang diskarte sa itaas, gamit ang isang text-to-image diffusion model na sinanay sa isang malaking hanay ng mga pares ng text-image (nagbibigay-daan dito upang mahawakan ang magkakaibang at kumplikadong mga signal) at isang 3D image diffusion model na sinanay sa isang mas maliit na hanay ng mga pares ng text-image.dataset ng pares ng larawan-3D.Ang text-to-image na modelo ay unang nagsa-sample ng input na imahe upang lumikha ng isang solong synthetic na representasyon, at ang image-to-3D na modelo ay lumilikha ng 3D point cloud batay sa napiling larawan.
Ang generative stack ng command ay batay sa kamakailang iminungkahing generative frameworks para sa kondisyong pagbuo ng mga larawan mula sa text (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Gumagamit sila ng GLIDE model na may 3 bilyong GLIDE parameters (Nichol et al., 2021), na pino-pino sa mga nai-render na 3D na modelo, bilang kanilang text-to-image transformation model, at isang set ng diffusion models na bumubuo ng RGB point clouds bilang kanilang modelo ng pagbabago.mga larawan sa larawan.Mga modelong 3D.
Habang ang nakaraang trabaho ay gumamit ng mga 3D na arkitektura upang iproseso ang mga point cloud, ang mga mananaliksik ay gumamit ng isang simpleng transducer-based na modelo (Vaswani et al., 2017) upang mapabuti ang kahusayan.Sa kanilang diffusion model architecture, ang mga point cloud na imahe ay unang ipapakain sa isang pre-trained na ViT-L/14 CLIP na modelo at pagkatapos ay ang mga output meshes ay ilalagay sa converter bilang mga marker.
Sa kanilang empirical na pag-aaral, inihambing ng team ang iminungkahing Point·E na paraan sa iba pang generative na 3D na modelo sa mga signal ng pagmamarka mula sa COCO object detection, segmentation, at signature datasets.Kinukumpirma ng mga resulta na ang Point·E ay nakakagawa ng magkakaibang at kumplikadong mga 3D na hugis mula sa mga kumplikadong signal ng teksto at nagpapabilis ng oras ng hinuha ng isa hanggang dalawang order ng magnitude.Inaasahan ng koponan na ang kanilang trabaho ay magbibigay inspirasyon sa karagdagang pananaliksik sa 3D text synthesis.
Ang isang pretrained point cloud propagation model at evaluation code ay available sa GitHub ng proyekto.Document Point-E: Ang isang sistema para sa paglikha ng 3D point cloud mula sa mga kumplikadong pahiwatig ay nasa arXiv.
Alam namin na hindi mo gustong makaligtaan ang anumang balita o pagtuklas sa siyensya.Mag-subscribe sa aming sikat na Synced Global AI Weekly newsletter para makatanggap ng lingguhang mga update sa AI.

Oras ng post: Dis-28-2022