要聞

AI換臉致虛假信息泛濫中國科學院自動化所董晶：必須建立一套從生成到傳播全鏈路可追溯的可信體系

2026-03-08 23:14:59

一位同時研究AI生成與檢測的學者，如何看待自己所在領域的“貓鼠游戲”？

每經(jīng)記者｜可楊每經(jīng)編輯｜楊軍

人工智能帶來效率提升，倫理安全問題也相伴而生，成為一大隱患。近日，多位代表及委員談及AI（人工智能）給日常生活帶來的風險，例如全國政協(xié)委員靳東就提到“AI換臉”導致“虛假信息滿天飛”，建議出臺更嚴厲的細則進行規(guī)范及治理。

一位同時研究AI生成與檢測的學者，如何看待自己所在領域的“貓鼠游戲”？

董晶來自中國科學院自動化所，她同時也是IEEE（電氣電子工程師學會）亞太區(qū)執(zhí)委。IEEE是全球最大的專業(yè)技術組織，致力于推動電氣、電子、計算機及通信等領域的技術創(chuàng)新。

在中國科學院自動化所，董晶的課題組同時開展兩個方向的研究：一邊是AI生成技術，讓機器學會“造人”；一邊是AI檢測技術，幫系統(tǒng)精準辨?zhèn)巍?/p>

“不妨讓二者battle（對抗）一下：一邊做出生成技術，另一邊拿去檢測是否存在安全風險，再據(jù)此迭代優(yōu)化?！倍дf，“這就相當于自己跟自己對抗，一邊造、一邊查，在內部形成攻防博弈?！?/p>

作為IEEE亞太區(qū)執(zhí)委、中國科學院自動化所研究員，董晶是專注AI生成與內容安全雙向研究的學者。恰逢婦女節(jié)，她接受了《每日經(jīng)濟新聞》記者（以下簡稱NBD）專訪，聊了聊AI人臉技術從平面到立體的躍遷，也聊了聊AI飛速發(fā)展的“矛與盾”，以及給想要進入AI行業(yè)的年輕人提出了一些建議。

中國科學院自動化所研究員董晶。圖片來源：受訪者供圖

AI人臉以前是“改圖”，現(xiàn)在是“造人”

NBD：這幾年大眾對AI人臉的印象，可能還停留在換臉或者美顏。您做的3D感知、表情遷移，聽起來更偏結構層面。今天的人臉生成和幾年前比，最大變化是什么？

董晶：過去人們對AI人臉的理解，大多停留在2D圖像層面的編輯與修改——從像素維度調整色彩、排列方式與統(tǒng)計規(guī)律，讓一張雜亂的噪聲圖逐步形成規(guī)整的人臉結構。可這類生成結果一旦換個角度、換種光線，就很容易露出破綻。

現(xiàn)在的變化是從平面修圖變成立體建模。我們做的3D感知、表情遷移，本質上是先還原人臉的三維結構、骨骼和肌肉關系，再去生成和驅動。從平面修圖變成了立體建模，相當于在做雕刻，從二維到三維，讓人臉立起來。

同時，更強調可信與安全，不僅要逼真，還要可溯源、可取證。

NBD：這種“立起來”帶來了什么實質變化？

董晶：首先是更穩(wěn)定、自然；其次是可控性大大增強，從二維到三維，參數(shù)量變多了，身份、表情、姿態(tài)、光照這些屬性可以用不同的參數(shù)分別調節(jié)；最后是可信與安全，參數(shù)量多了，我們在計算過程中建立的可溯源、可取證的鏈條就更完善。

簡單說就是以前我們是“改圖”，現(xiàn)在是在“造人”。

NBD：這個技術突破和什么有關？算力、數(shù)據(jù)還是算法？

董晶：關鍵在于兩點：一是算力水平，二是模型性能。過去受限于條件，既難以處理海量數(shù)據(jù)，對數(shù)據(jù)的理解能力也相對有限。如今不僅有了更多優(yōu)質數(shù)據(jù)，借助生成式技術本身，還能補全許多此前難以獲取、處理和存儲的數(shù)據(jù)。

另外就是算法更智能了，研究這個方向的人越來越多，智力投入足夠，對參數(shù)怎么調優(yōu)的理解也在加深，人工智能，首先是人的智能。

NBD：大語言模型有海量語料，圖像領域會面臨數(shù)據(jù)缺乏的問題嗎？

董晶：確實會。圖像視頻數(shù)據(jù)本身就是非結構化數(shù)據(jù)，建模難度大，存儲需求也大。從量級上說，一篇文本跟一張圖像比，圖像的數(shù)據(jù)肯定是缺乏的，所以現(xiàn)在我們用很多生成式技術去做（指生成圖像、視頻），其實也是在補這些短板。

NBD：補短板包括補視覺大模型甚至具身智能的數(shù)據(jù)短板嗎？

董晶：視覺是人類接觸世界最直觀的表達，70%的數(shù)據(jù)來自眼睛。所以我們肯定希望這個技術，能讓大家從imagine（想象）到imagination（想象力），給想象力更廣的空間。

不過現(xiàn)在的生成技術還在發(fā)展階段，不是所有數(shù)據(jù)都能生成得很逼真。有些生成內容看上去像真圖，但不符合物理世界的規(guī)律。想象力是可以的，但是它不能太超前，在醫(yī)療、安全等等高精尖、強精準要求的領域，現(xiàn)有技術仍未達到成熟可用、落地應用的階段。

NBD：您一直強調可控編輯，可以調節(jié)年齡、表情、身份屬性。為什么可控會成為重要方向？

董晶：可控編輯，是AI生成從炫技走向實用的關鍵。過去生成模型最大的痛點是不可控、不可復現(xiàn)，想改個表情、調整個年齡，都要反復生成，沒法精準滿足需求?？煽鼐庉嫲讶四樀牟煌瑢傩圆鸾忾_，獨立調控，讓AI從“黑箱生成”變成“按需定制”。它解決的是生成與需求脫節(jié)、結果不可靠、技術難落地的問題。

這個技術的應用場景也包括了數(shù)字人直播、影視特效、電商內容生產(chǎn)、醫(yī)美預覽、安全教育、身份認證安全等。同時，可控也是AI安全與內容監(jiān)管的前提，和我研究的深度偽造檢測、多媒體取證高度契合。

NBD：對抗性妝容這類技術的原理是什么？目前技術是否已經(jīng)具備了從實驗室走向手機App、甚至金融支付前端的商業(yè)條件？

董晶：對抗性妝容的原理，是通過人眼幾乎不可察覺的細微妝容，干擾人臉識別模型，從而保護面部隱私。它不靠遮擋，而是精準、溫和地讓AI認不出來。

目前技術效果已經(jīng)比較成熟，但還沒完全具備大規(guī)模商業(yè)化條件。一方面，它對光線、角度、攝像頭的魯棒性仍需提升；另一方面，涉及金融安全、隱私合規(guī)、倫理規(guī)范，需要行業(yè)標準和監(jiān)管體系同步完善。短期內會更多用于隱私保護研究和特定場景防護。

NBD：識別系統(tǒng)可以被干擾，是否意味著人臉識別本身并不是絕對可靠？未來的支付安全或手機解鎖會走向哪里？會不會需要依靠更多多模態(tài)結合的識別？

董晶：沒有任何一種生物識別是絕對安全的，人臉識別在日常場景中高效便捷，但在對抗、偽裝、攻擊場景下，確實存在被繞過的可能。

我們研究攻擊，不是否定它，而是讓它更安全。人臉識別是便利工具，不是絕對防線。日常通行、手機解鎖沒問題；但金融支付、大額交易，不能只依賴人臉。未來方向一定是多模態(tài)融合：人臉、指紋、聲紋、行為特征、設備信息等交叉校驗。單一模態(tài)可能被攻破，但多模態(tài)會把安全等級大幅提高。

沒有安全的盾，生成也無法落地

NBD：以前說“有圖有真相”，現(xiàn)在視頻也可能是假的。技術層面還能有效識別嗎？

董晶：目前仍然可以有效識別，我們課題組就在做生成式內容的檢測與測評?，F(xiàn)在抖音快手很多短視頻都要求標注是不是AI生成，主動標注當然好，但更多的可能不標，就需要檢測技術跟上來。

從技術角度，我們分析生成式技術的共性特征。比如生成出來的圖是不是真彩色更強，很多時候你會發(fā)現(xiàn)它比一般視頻拍得更漂亮、更炫酷。從像素層面，它的連續(xù)性、邊緣效應可能有特定規(guī)律，就像模型有自己的“指紋”。

還有就是從大量數(shù)據(jù)中學到的一些不太好定義的經(jīng)驗特征，可以幫助我們給出一個概率判斷。AI生成再逼真，也會留下物理、幾何、時序上的細微痕跡：光影不一致、微結構扭曲、時間不連貫等。人眼看不出來，但算法可以捕捉。

NBD：檢測的難點具體在哪里？

董晶：AI生成的檢測本質上是弱信號檢測，生成模型的目標就是無限逼近真實視頻，而檢測任務則要在高度逼真的內容中，精準識別出偽造痕跡。你越了解生成式技術，就越了解它可能假在哪里。所以我們一定要從生成式原理出發(fā)，脫離技術本質空談檢測，無異于閉門造車。

另一個難點是，弱信號的檢測，其特性往往沒有一個在語義層面可表達、可解釋的規(guī)律，很難找到普適的特性。所以我們需要不斷補全知識盲區(qū)，把經(jīng)驗加進去。

NBD：會存在越短的視頻越難檢測嗎？很多用戶會覺得看AI視頻，感覺多看幾秒就能發(fā)現(xiàn)它是AI。那生成個3秒的視頻，是不是更難發(fā)現(xiàn)？

董晶：這個跟時間長短沒有絕對關系。你要說短，那圖像更短，但圖像的檢測率，在我們很多實際觀測中，可能比視頻更高。

這其中可能是用到了一些認知機理。人類多看幾秒，相當于多學了一段時間，從這個角度說，學習時間越長，對知識掌握能力越強，這可能符合人類的認知關系。從科學研究的角度來看，檢測效果與視頻時長沒有本質關聯(lián)。關鍵在于對問題本質的認知深度：是否真正理解偽造特征、能否有效建模并學習到這些關鍵線索。

我們目前研究發(fā)現(xiàn)，AI生成視頻的檢測難度有一明顯特性：視頻場景頻繁切換、不連續(xù)（如頻繁跳場），會因引入大量無序擾動信息，顯著增加檢測難度。反之，視頻保持幾秒連續(xù)穩(wěn)定、連續(xù)性特征越多，越利于檢測——連續(xù)場景可減少擾動，便于捕捉生成視頻的固有偽造痕跡，提升檢測效果。

NBD：有一種觀點認為，檢測永遠追不上生成，您怎么看？

董晶：現(xiàn)階段檢測仍然略占優(yōu)勢，但雙方處于持續(xù)拉鋸。生成追求視覺逼真，檢測抓的是物理規(guī)律、幾何一致性、模型痕跡這些人類難以察覺的底層漏洞。短期看，新生成方法剛出現(xiàn)時，檢測會短暫滯后，但很快能追上。長期看，賽道會發(fā)生變化，未來不再是單純攻防，而是可信水印、生成溯源、多模態(tài)校驗、全鏈路合規(guī)的主動防御體系。

NBD：您同時涉足生成和檢測，怎么理解這兩者的關系？

董晶：我更愿意定義為相互成就、螺旋上升的共生關系。生成技術不斷逼近真實，主動暴露識別系統(tǒng)的漏洞，逼著安全技術變強；檢測與安全技術不斷升級，又反過來約束生成走向規(guī)范、可信、安全，讓技術不被濫用。

沒有攻，就沒有堅固的守；沒有盾，生成也無法真正落地。它們共同推動整個人工智能領域，從可用走向好用、可靠、可信。

NBD：現(xiàn)在做AI安全研究，重點在哪些方面？

董晶：安全是一個整體觀念，它不是某一個方面的安全，而是有衍生效應。有內生安全，也有外生賦能安全，技術本身可能有脆弱性，也可能延伸到其他領域帶來新的安全問題。

我一方面是在做生成的技術，我會考慮這些前沿技術怎么應用，但應用的過程中，又要測試它會不會帶來安全問題，我們要去測試一下。所以我們既做生成也做檢測。相當于自己對抗自己，很多技術在我的課題組我都分成兩個課題、兩個小組在做，然后讓他們互相battle。

NBD：當生成內容足以以假亂真時，怎么建立一套有效的溯源機制？

董晶：要防止AI被濫用、成為造謠與詐騙工具，不能只靠事后檢測，必須建立一套從生成到傳播全鏈路可追溯的可信體系。

首先要從源頭強制留痕，未來所有商用AI生成模型，都應該嵌入不可篡改的數(shù)字水印、模型指紋、生成日志，讓圖片、視頻在生成的那一刻，就自帶出生證明，記錄生成主體、時間、模型信息，做到誰生成、誰負責。

其次，在傳播環(huán)節(jié)建立可信校，社交平臺、短視頻平臺應接入統(tǒng)一的內容核驗接口，自動識別內容是否為AI生成、是否被篡改。

同時，完善法律與制度保障，明確平臺、開發(fā)者、使用者的責任邊界，讓技術溯源結果能夠成為法律證據(jù)鏈的一部分。

NBD：未來在身份驗證、隱私保護方面，技術趨勢是什么？

董晶：現(xiàn)在的檢測技術需要更多從認知角度去做可解釋性，不能只告訴用戶“這是假的”，還要告訴他“為什么是假的”。下次看到同類內容，用戶自己就有判斷力了。我們要找出那些人類可以理解、但視覺難以察覺的底層漏洞，比如違背了哪些圖像或視頻中的幾何規(guī)律、物理規(guī)律。如果只告訴真假，未來生成式內容越來越多，大家只會越來越眼花繚亂。