人工智能和機(jī)器學(xué)習(xí)算法越來(lái)越善于預(yù)測(cè)視頻中的下一個(gè)動(dòng)作。在最好的可以相當(dāng)準(zhǔn)確地預(yù)測(cè),其中后一個(gè)棒球威力旅游已經(jīng)投了,或者的公路里程從起始位置的外觀。為此,谷歌,密歇根大學(xué)和Adobe的研究人員提出了一種新穎的方法,該方法利用大型模型提高了藝術(shù)水平,該模型僅用幾幀即可生成高質(zhì)量的視頻。更令人印象深刻的是,它無(wú)需像以前的方法那樣依賴(lài)光流(場(chǎng)景中物體,表面或邊緣的明顯運(yùn)動(dòng)的模式)或地標(biāo)等技術(shù)就可以做到這一點(diǎn)。
研究人員在描述其工作的預(yù)印本論文中寫(xiě)道:“在這項(xiàng)工作中,我們只是通過(guò)最大化標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的容量來(lái)研究是否能夠?qū)崿F(xiàn)高質(zhì)量的視頻預(yù)測(cè)。”“據(jù)我們所知,這項(xiàng)工作是第一個(gè)對(duì)容量增加對(duì)視頻預(yù)測(cè)的影響進(jìn)行徹底調(diào)查的工作。”
團(tuán)隊(duì)的基準(zhǔn)模型建立在現(xiàn)有的隨機(jī)視頻生成(SVG)架構(gòu)的基礎(chǔ)上,并具有對(duì)未來(lái)預(yù)測(cè)中固有的不確定性進(jìn)行建模的組件。他們針對(duì)為三種預(yù)測(cè)類(lèi)別量身定制的數(shù)據(jù)集分別訓(xùn)練和測(cè)試了模型的多個(gè)版本:對(duì)象交互,結(jié)構(gòu)化運(yùn)動(dòng)和部分可觀察性。對(duì)于第一個(gè)任務(wù)(對(duì)象交互),研究人員從機(jī)器人手臂與毛巾交互的視頻語(yǔ)料庫(kù)中選擇了256個(gè)視頻,對(duì)于第二個(gè)(結(jié)構(gòu)化運(yùn)動(dòng)),他們從Human 3.6M中提取了片段,該語(yǔ)料庫(kù)包含了人類(lèi)執(zhí)行動(dòng)作的片段就像坐在椅子上一樣。至于部分可觀察性任務(wù),他們使用了來(lái)自前車(chē)儀表板攝像機(jī)鏡頭的開(kāi)源KITTI駕駛數(shù)據(jù)集。
團(tuán)隊(duì)將每個(gè)模型的條件調(diào)整為2到5個(gè)視頻幀,并讓模型在訓(xùn)練期間預(yù)測(cè)未來(lái)的5到10幀-針對(duì)所有任務(wù)的分辨率為低分辨率(64 x 64像素),分辨率為低分辨率和高分辨率(128 x 128)像素)用于對(duì)象互動(dòng)任務(wù)。在測(cè)試期間,模型最多生成25幀。
研究人員報(bào)告說(shuō),通過(guò)Amazon Mechanical Turk招募的評(píng)估人員,在對(duì)象交互,結(jié)構(gòu)化運(yùn)動(dòng)和部分可觀察性任務(wù)方面,最大的模型之一分別有90.2%,98.7%和99.3%的時(shí)間更可取。定性地,研究小組注意到,該模型清晰地描繪了人類(lèi)的手臂和腿,并做出了“非常敏銳的預(yù)測(cè),與地面真實(shí)情況相比,這些預(yù)測(cè)看起來(lái)很現(xiàn)實(shí)。