日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
讓真人照片說話算什么?Adobe新研究讓插座都能開口說話

 不僅讓真人圖像開口說話,油畫、素描、漫畫等都能動起來!

云龍網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)!從網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、響應(yīng)式網(wǎng)站設(shè)計等網(wǎng)站項目制作,到程序開發(fā),運營維護。創(chuàng)新互聯(lián)于2013年成立到現(xiàn)在10年的時間,我們擁有了豐富的建站經(jīng)驗和運維經(jīng)驗,來保證我們的工作的順利進行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)

給出一張面部圖像和一段音頻,能做什么?AI 有辦法,比如讓圖像中的人開口說話!

此前,機器之心報道過三星人工智能研究中心和倫敦帝國理工學院提出的新型端到端系統(tǒng),僅憑一張人臉照片和一段音頻,就可以生成新的講話或唱歌視頻。

最近我們發(fā)現(xiàn)了一項類似的研究,馬薩諸塞大學阿默斯特分校、Adobe 研究院等機構(gòu)提出了一種叫做 MakeItTalk 的新方法,不僅能讓真人頭像說話,還可以讓卡通、油畫、素描、日漫中的人像說話。

論文鏈接:https://arxiv.org/pdf/2004.12992v1.pdf

不信就來看看效果吧!

我們首先看一看真人圖像的動態(tài)化效果。

 看起來不錯,那么卡通畫呢?

給我一個插座,我能讓他成精!

還有油畫。

如果我想讓圖像中的人物搖頭晃腦高談闊論,或者保持沉靜端莊呢?

答案是也可以實現(xiàn)。

 動圖 get 不到聲畫同步效果?請戳下面這個視頻:

那么,這是如何做到的呢?

之前的方法往往學習音頻和原始像素之間的直接映射進而創(chuàng)建人物的說話動態(tài),而這項研究提出的方法將輸入音頻信號中的內(nèi)容和說話人身份信息分離開來:音頻內(nèi)容用來穩(wěn)健地控制嘴唇及周圍區(qū)域的運動;說話人信息則決定面部表情的細節(jié)和人物的頭部動態(tài)。

該方法的另一個重要組件是預測能夠反映說話人動態(tài)的面部特征點。基于該中間表征,該方法能夠為真人頭部圖像合成說話狀態(tài)視頻。此方法還可用于藝術(shù)作品、素描、2D 卡通人物、日漫、隨手涂鴉等圖像。

研究者對該方法進行了定量和定性評估,結(jié)果表明與之前的 SOTA 方法相比,該方法能夠生成具備更高質(zhì)量的說話狀態(tài)頭部動畫。

圖 8:與 SOTA 方法的對比。

研究貢獻

該研究的主要貢獻如下:

  • 提出一種基于深度學習的新架構(gòu),能夠僅基于語音信號預測面部特征點,捕捉嘴唇、下巴、眉毛、鼻子和頭部的姿勢;
  • 基于分離開的語音內(nèi)容和說話人表征生成包含面部表情和頭部動態(tài)的動畫;
  • 針對矢量風格卡通圖像和真實人物面部圖像各提出一種圖像合成方法。這些方法可以處理訓練過程中未出現(xiàn)的新人臉圖像和卡通人物圖像;
  • 提出一組定量度量指標,并對頭部動畫方法的評估進行了用戶調(diào)研。

MakeItTalk 架構(gòu)

圖 2:MakeItTalk 方法概覽。

如上圖所示,給出一段音頻和一張面部圖像,MakeItTalk 架構(gòu)可以生成說話人的頭部狀態(tài)動畫,且聲畫同步。

在訓練階段,研究者使用現(xiàn)成可用的人臉特征點檢測器對輸入圖像進行預處理,提取面部特征點。然后使用輸入音頻和提取到的特征點直接訓練使語音內(nèi)容動態(tài)化的基線模型。為了達到高保真動態(tài)效果,研究者嘗試將輸入音頻信號的語音內(nèi)容和說話人嵌入分離開來,進而實現(xiàn)面部特征點的預測。

具體而言,該研究使用聲音轉(zhuǎn)換神經(jīng)網(wǎng)絡(luò)將語音內(nèi)容和說話人身份信息分離開。

語音內(nèi)容與說話人無關(guān),僅捕捉嘴唇及周圍區(qū)域的運動(參見圖 2「Speech Content Animation」)。說話人的身份信息則決定了動作的細節(jié)和說話人的其余頭部動態(tài)(參加圖 2「Speaker-Aware Animation」)。

例如,不管誰說單詞「Ha!」嘴唇都會張開,這與說話人無關(guān),僅取決于說話內(nèi)容。而嘴唇的形狀和張開的幅度,以及鼻子、眼睛和頭部的動態(tài)則取決于說話人的身份。

基于語音內(nèi)容和說話人身份信息,MakeItTalk 模型為給定音頻輸出預測特征點序列。

圖 3:針對不同說話人身份的特征點預測。左:給定人臉圖像的靜態(tài)特征點;右上:對說話時頭部動作較輕的人的預測特征點序列;右下:對說話時頭部動作較大的人的預測特征點序列。

為了生成光柵圖像,研究者開發(fā)了兩種特征點-圖像合成(landmark-to-image synthesis)算法。

對于非真人圖像,如油畫或矢量圖(圖 9),該研究使用基于德勞內(nèi)三角剖分(Delaunay triangulation)的簡單換臉方法。

圖 4:通過面部特征點和德勞內(nèi)三角剖分進行卡通圖像換臉。左:給出的卡通圖像和面部特征點;中:德勞內(nèi)三角剖分;右:由預測特征點引導進行換臉后的圖像。

對于真人圖像(圖 8),則使用圖像轉(zhuǎn)換網(wǎng)絡(luò)(類似于 pix2pix)將真人面部圖像和底層特征點預測動態(tài)化(參見上圖 2「Image2Image Translation」)。

之后結(jié)合所有圖像幀和輸入音頻,就可以得到最終的說話狀態(tài)頭部動畫了。

下圖 6 展示了卡通圖像和真人圖像的動態(tài)化結(jié)果:

圖 6:MakeItTalk 生成的卡通動畫和真人面部動畫。該方法不僅可以合成面部表情,還可以合成不同的頭部姿勢。

MakeItTalk 有何實際用途?

合成說話狀態(tài)頭部動畫有很多應(yīng)用場景,比如配音。

下圖 7a 中,原始視頻使用語言為英語,而配音版使用的是西班牙語,那么問題來了,配音版影片中人物的面部表情和語音對不上號。使用 MakeItTalk 后可以生成語音對應(yīng)的視頻幀,實現(xiàn)聲畫同步,并保持原版視頻中的說話風格。

另一個應(yīng)用則是目前應(yīng)用廣泛的視頻會議。

在有限帶寬視頻會議中,視頻幀無法以高保真度和高幀率進行傳輸,這時我們就可以利用聲音信號帶動說話者的頭部動態(tài)視頻。與視覺畫面相比,聲音信號可以以較低的帶寬保存。而且,面部表情(尤其是嘴唇動作)對于溝通交流非常重要。下圖 7b 展示了,使用 MakeItTalk 僅基于音頻和初始高質(zhì)量視頻幀合成的頭部動態(tài)視頻。

圖 7:MakeItTalk 的應(yīng)用。第一行:用不同語言為視頻配音;第二行:有限帶寬視頻會議。


新聞標題:讓真人照片說話算什么?Adobe新研究讓插座都能開口說話
文章出自:http://www.5511xx.com/article/cdscigo.html