亚洲免费www97爱|草草aⅴ在线观看视频|伊伊综合网在线视频免费|在线日本道二区免费v

    您的位置:首頁>AI>

    這種技術(shù)可以使AI更容易理解視頻

    麻省理工學(xué)院和IBM的一個小組開發(fā)了一種算法,該算法能夠準(zhǔn)確地識別視頻中的動作,同時消耗以前所需的一小部分處理能力,從而有可能改變將AI應(yīng)用于大量視頻的經(jīng)濟(jì)性。該方法改編了用于處理靜態(tài)圖像的AI方法,從而為它提供了經(jīng)過時間的粗略概念。

    這項工作是朝著讓AI識別視頻中正在發(fā)生的事情邁出的一步,也許有助于馴服現(xiàn)在正在產(chǎn)生的大量信息。僅在YouTube上,2019年5月每分鐘上傳的視頻超過500小時。

    公司希望使用AI自動生成視頻的詳細(xì)描述,從而使用戶可以發(fā)現(xiàn)未注釋的剪輯。而且,當(dāng)然,他們會希望根據(jù)視頻中的內(nèi)容來出售廣告,也許當(dāng)有人開始直播比賽時,他們就會立即展示網(wǎng)球課程的球場。Facebook和Google也希望使用AI來自動發(fā)現(xiàn)和過濾非法或惡意內(nèi)容,盡管這可能證明貓和老鼠正在進(jìn)行游戲。在不顯著增加AI的碳足跡的情況下完成所有這一切將是一個挑戰(zhàn)。

    科技公司喜歡炫耀自己對AI的使用,但仍然沒有太多用于分析視頻。YouTube,F(xiàn)acebook和TikTok使用機(jī)器學(xué)習(xí)算法對片段進(jìn)行分類和推薦,但它們似乎主要依賴于與視頻相關(guān)的元數(shù)據(jù),例如描述,標(biāo)簽以及上載時間和位置。所有人都在研究分析視頻內(nèi)容的方法,但是這些方法需要更多的計算機(jī)功能。

    麻省理工學(xué)院的助理教授宋漢(Song Han)說:“視頻的理解是如此重要。”“但是計算量太高了。”

    AI算法消耗的能量也在以驚人的速度增長。據(jù)一些估計,用于尖端AI實驗的計算機(jī)能力大約每三個半月翻一番。7月,艾倫人工智能研究所的研究人員呼吁研究人員發(fā)布其算法能效的詳細(xì)信息,以幫助解決這一迫在眉睫的環(huán)境問題。

    隨著公司利用AI分析視頻,這一點尤其重要。近年來,圖像識別取得了巨大進(jìn)步,這在很大程度上要歸功于深度學(xué)習(xí)(一種從復(fù)雜數(shù)據(jù)中提取含義的統(tǒng)計技術(shù))。深度學(xué)習(xí)算法可以基于圖像中顯示的像素檢測對象。

    但是深度學(xué)習(xí)不善于解釋視頻。除非將視頻幀與前后的視頻幀進(jìn)行比較,否則分析視頻幀不會顯示正在發(fā)生的事情,例如,拿著門的人可能正在打開或關(guān)閉門。盡管Facebook研究人員在2015年開發(fā)了一種包含時變的深度學(xué)習(xí)版本,但這種方法相對笨拙。

    根據(jù)Han的估計,訓(xùn)練深度學(xué)習(xí)算法將視頻解釋為靜止圖像可能需要50倍的數(shù)據(jù)和8倍的處理能力。

    韓與兩位同事共同開發(fā)了一種稱為“時間轉(zhuǎn)換模塊”的解決方案。用于視頻識別的常規(guī)深度學(xué)習(xí)算法可一次對多個視頻幀執(zhí)行3D操作(稱為卷積)。Han的方法使用更有效的2D算法,這種算法更常用于靜止圖像。時間移位模塊提供了一種方法,可以捕獲一幀中的像素與下一幀中的像素之間的關(guān)系,而無需執(zhí)行完整的3D操作。當(dāng)2D算法依次處理每個幀時,同時合并來自相鄰幀的信息,它可以隨著時間的推移實現(xiàn)事物展開的感覺,從而可以檢測到所顯示的動作。

    免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!