亚博网站买球首选

    當前位置:首頁 > 新聞中心 > 科研動態

科研動態

智能感知與計算研究中心提出基于最優傳輸理論的影視換臉技術

  • 發表日期:2020-11-16 【 【打印】【關閉】
  •    

      科技改變影視生態  

      影視劇換臉結果 素材來源自網絡)  

      賦予機器類人創造力,使之能夠自動理解和編輯影像是人工智能領域的前沿方向。  

      中科院亚博网站买球首选智能感知與計算研究中心長期從事圖像分析理解的信息理論基礎研究,近期提出一種基于最優傳輸理論的影視換臉技術,著力于解決復雜光照和膚色條件下的人臉外觀遷移問題,在挑戰性的影視劇場景中實現了高效逼真的換臉效果。該技術能夠部分緩解影視換臉人力成本高昂的問題,有望進一步推動影視娛樂領域的智能化程度。相關論文因可能會在深度偽造領域帶來人工智能倫理影響,被NeurIPS2020大會條件接收,近日在獲得6位專業審稿人(包含2位人工智能倫理專家)一致肯定后,被正式接收。  

      研究背景  

      影視換臉是指將原有影視作品中演員的人臉替換為另一名演員的人臉。為了實現逼真效果,除卻身份信息外,替換后的人臉需保持和替換前人臉相同的屬性,如光照和膚色等。傳統的影視換臉需要專業人員手動逐幀編輯,費時費力且造價高昂。例如,電影《雙子殺手》中將年輕時威爾·史密斯的人臉替換至影片中,短短4分鐘的換臉戲份花費了長達九個月的后期制作時間。漫長的周期、高昂的費用嚴重制約了影視換臉的發展。    

      近年來興起的生成機器學習模型給影視換臉帶來了新穎且經濟的解決思路。研究人員利用生成模型強大的學習和映射能力,實現人臉的自動替換。然而,當被替換影視中的人臉處于復雜的外觀(光照、膚色)條件下時,當前基于生成模型的換臉技術難以取得令人滿意的效果,出現各種“換臉后遺癥”,如圖1左邊生成視頻的面部出現忽明忽暗的色塊。如何彌補生成視頻和源視頻之間的顏色屬性差異,從而有效地實現換臉過程中的外觀遷移成為亟待解決的問題。 

       

      1. 復雜光照條件下,DeepFaceLab ()和新方法()對比圖  

      方法簡述  

      為了解決上述問題,亚博网站买球首选智能感知中心研究人員基于最優傳輸理論,將外觀顏色遷移問題建模為一個最優傳輸問題,并提出外觀最優傳輸模型Appearance Optimal TransportAOT)。如圖2所示,其采用重新打光生成器(Relighting)和混合分割判別器(Mix-and-Segment)分別在特征空間和像素空間同時求解傳輸計劃。   

      特征空間上的遷移:提出一種神經最優傳輸計劃估計模塊(NOTPE),通過最小化隱空間特征的Wasserstein距離近似求解最優傳輸,實現外觀在隱層空間的映射。這樣一方面規避了傳統最優傳輸方法的大規模計算問題,另一方面解決了圖像之間運用最優傳輸時生成不連續且不真實圖片的問題。同時該方法提取人臉相應的坐標以及法線信息,用于表示面部幾何和光照,使得在特征空間上遷移的過程更為準確。 

       

      2. AOT方法框架圖  

      像素空間上的遷移:由于同一圖像的特征空間和像素空間之間存在強關聯性,該方法進一步探索如何在像素空間上減少外觀差異。在傳統的生成對抗網絡中,判別器用于區分整張圖像的真假,這樣會使模型趨向于關注整體特征而忽略局部特征。為了實現更細粒度的圖像生成,該方法利用換臉過程中的結構一致性,引入一種圖像分割游戲。其將生成的假臉切塊并和源圖像隨機混合,并使用一種新的判別器Mix-and-SegmentMSD)區分真假混合圖像塊中的真實部分。這種分割對抗機制能夠促使生成圖像在像素空間和目標圖像盡可能相似,從而顯著提升換臉效果。  

      應用驗證  

      1.受控場景  

      DPF-1.0數據集上,該方法與當前主流的換臉算法DFLFSGAN的對比如圖3所示。實驗結果顯示出該方法對光照變化的魯棒性,能夠在復雜光照條件下實現更加逼真的換臉效果。  

       

      3. 受控場景下測試結果    

      2.現實場景  

      4表明在現實影視場景中,該方法仍然展現出比傳統方法更加卓越的性能優勢。  

       

      4. 現實影視場景下測試結果  

           

      論文信息:  

      Hao Zhu*, Chaoyou Fu*, Qianyi Wu, Wayne Wu, Chen Qian, Ran He. AOT: Appearance Optimal Transport Based Identity Swapping for Forgery Detection. NeurIPS, 2020.  

      Ran He, Xiang Wu, Zhenan Sun, Tieniu Tan. Wasserstein CNN: Learning Invariant Features for NIR-VIS Face Recognition. IEEE Trans. Pattern Anal. Mach. Intell., 41(7): 1761-1773 (2019)