2026-03-08 23:14:59
一位同時研究AI生成與檢測的學者,如何看待自己所在領域的“貓鼠游戲”?
每經(jīng)記者|可楊 每經(jīng)編輯|楊軍
人工智能帶來效率提升,倫理安全問題也相伴而生,成為一大隱患。近日,多位代表及委員談及AI(人工智能)給日常生活帶來的風險,例如全國政協(xié)委員靳東就提到“AI換臉”導致“虛假信息滿天飛”,建議出臺更嚴厲的細則進行規(guī)范及治理。
一位同時研究AI生成與檢測的學者,如何看待自己所在領域的“貓鼠游戲”?
董晶來自中國科學院自動化所,她同時也是IEEE(電氣電子工程師學會)亞太區(qū)執(zhí)委。IEEE是全球最大的專業(yè)技術組織,致力于推動電氣、電子、計算機及通信等領域的技術創(chuàng)新。
在中國科學院自動化所,董晶的課題組同時開展兩個方向的研究:一邊是AI生成技術,讓機器學會“造人”;一邊是AI檢測技術,幫系統(tǒng)精準辨?zhèn)巍?/p>
“不妨讓二者battle(對抗)一下:一邊做出生成技術,另一邊拿去檢測是否存在安全風險,再據(jù)此迭代優(yōu)化?!倍дf,“這就相當于自己跟自己對抗,一邊造、一邊查,在內部形成攻防博弈?!?/p>
作為IEEE亞太區(qū)執(zhí)委、中國科學院自動化所研究員,董晶是專注AI生成與內容安全雙向研究的學者。恰逢婦女節(jié),她接受了《每日經(jīng)濟新聞》記者(以下簡稱NBD)專訪,聊了聊AI人臉技術從平面到立體的躍遷,也聊了聊AI飛速發(fā)展的“矛與盾”,以及給想要進入AI行業(yè)的年輕人提出了一些建議。

中國科學院自動化所研究員董晶。圖片來源:受訪者供圖
NBD:這幾年大眾對AI人臉的印象,可能還停留在換臉或者美顏。您做的3D感知、表情遷移,聽起來更偏結構層面。今天的人臉生成和幾年前比,最大變化是什么?
董晶:過去人們對AI人臉的理解,大多停留在2D圖像層面的編輯與修改——從像素維度調整色彩、排列方式與統(tǒng)計規(guī)律,讓一張雜亂的噪聲圖逐步形成規(guī)整的人臉結構。可這類生成結果一旦換個角度、換種光線,就很容易露出破綻。
現(xiàn)在的變化是從平面修圖變成立體建模。我們做的3D感知、表情遷移,本質上是先還原人臉的三維結構、骨骼和肌肉關系,再去生成和驅動。從平面修圖變成了立體建模,相當于在做雕刻,從二維到三維,讓人臉立起來。
同時,更強調可信與安全,不僅要逼真,還要可溯源、可取證。
NBD:這種“立起來”帶來了什么實質變化?
董晶:首先是更穩(wěn)定、自然;其次是可控性大大增強,從二維到三維,參數(shù)量變多了,身份、表情、姿態(tài)、光照這些屬性可以用不同的參數(shù)分別調節(jié);最后是可信與安全,參數(shù)量多了,我們在計算過程中建立的可溯源、可取證的鏈條就更完善。
簡單說就是以前我們是“改圖”,現(xiàn)在是在“造人”。
NBD:這個技術突破和什么有關?算力、數(shù)據(jù)還是算法?
董晶:關鍵在于兩點:一是算力水平,二是模型性能。過去受限于條件,既難以處理海量數(shù)據(jù),對數(shù)據(jù)的理解能力也相對有限。如今不僅有了更多優(yōu)質數(shù)據(jù),借助生成式技術本身,還能補全許多此前難以獲取、處理和存儲的數(shù)據(jù)。
另外就是算法更智能了,研究這個方向的人越來越多,智力投入足夠,對參數(shù)怎么調優(yōu)的理解也在加深,人工智能,首先是人的智能。
NBD:大語言模型有海量語料,圖像領域會面臨數(shù)據(jù)缺乏的問題嗎?
董晶:確實會。圖像視頻數(shù)據(jù)本身就是非結構化數(shù)據(jù),建模難度大,存儲需求也大。從量級上說,一篇文本跟一張圖像比,圖像的數(shù)據(jù)肯定是缺乏的,所以現(xiàn)在我們用很多生成式技術去做(指生成圖像、視頻),其實也是在補這些短板。
NBD:補短板包括補視覺大模型甚至具身智能的數(shù)據(jù)短板嗎?
董晶:視覺是人類接觸世界最直觀的表達,70%的數(shù)據(jù)來自眼睛。所以我們肯定希望這個技術,能讓大家從imagine(想象)到imagination(想象力),給想象力更廣的空間。
不過現(xiàn)在的生成技術還在發(fā)展階段,不是所有數(shù)據(jù)都能生成得很逼真。有些生成內容看上去像真圖,但不符合物理世界的規(guī)律。想象力是可以的,但是它不能太超前,在醫(yī)療、安全等等高精尖、強精準要求的領域,現(xiàn)有技術仍未達到成熟可用、落地應用的階段。
NBD:您一直強調可控編輯,可以調節(jié)年齡、表情、身份屬性。為什么可控會成為重要方向?
董晶:可控編輯,是AI生成從炫技走向實用的關鍵。過去生成模型最大的痛點是不可控、不可復現(xiàn),想改個表情、調整個年齡,都要反復生成,沒法精準滿足需求??煽鼐庉嫲讶四樀牟煌瑢傩圆鸾忾_,獨立調控,讓AI從“黑箱生成”變成“按需定制”。它解決的是生成與需求脫節(jié)、結果不可靠、技術難落地的問題。
這個技術的應用場景也包括了數(shù)字人直播、影視特效、電商內容生產(chǎn)、醫(yī)美預覽、安全教育、身份認證安全等。同時,可控也是AI安全與內容監(jiān)管的前提,和我研究的深度偽造檢測、多媒體取證高度契合。
NBD:對抗性妝容這類技術的原理是什么?目前技術是否已經(jīng)具備了從實驗室走向手機App、甚至金融支付前端的商業(yè)條件?
董晶:對抗性妝容的原理,是通過人眼幾乎不可察覺的細微妝容,干擾人臉識別模型,從而保護面部隱私。它不靠遮擋,而是精準、溫和地讓AI認不出來。
目前技術效果已經(jīng)比較成熟,但還沒完全具備大規(guī)模商業(yè)化條件。一方面,它對光線、角度、攝像頭的魯棒性仍需提升;另一方面,涉及金融安全、隱私合規(guī)、倫理規(guī)范,需要行業(yè)標準和監(jiān)管體系同步完善。短期內會更多用于隱私保護研究和特定場景防護。
NBD:識別系統(tǒng)可以被干擾,是否意味著人臉識別本身并不是絕對可靠?未來的支付安全或手機解鎖會走向哪里?會不會需要依靠更多多模態(tài)結合的識別?
董晶:沒有任何一種生物識別是絕對安全的,人臉識別在日常場景中高效便捷,但在對抗、偽裝、攻擊場景下,確實存在被繞過的可能。
我們研究攻擊,不是否定它,而是讓它更安全。人臉識別是便利工具,不是絕對防線。日常通行、手機解鎖沒問題;但金融支付、大額交易,不能只依賴人臉。未來方向一定是多模態(tài)融合:人臉、指紋、聲紋、行為特征、設備信息等交叉校驗。單一模態(tài)可能被攻破,但多模態(tài)會把安全等級大幅提高。
NBD:以前說“有圖有真相”,現(xiàn)在視頻也可能是假的。技術層面還能有效識別嗎?
董晶:目前仍然可以有效識別,我們課題組就在做生成式內容的檢測與測評?,F(xiàn)在抖音快手很多短視頻都要求標注是不是AI生成,主動標注當然好,但更多的可能不標,就需要檢測技術跟上來。
從技術角度,我們分析生成式技術的共性特征。比如生成出來的圖是不是真彩色更強,很多時候你會發(fā)現(xiàn)它比一般視頻拍得更漂亮、更炫酷。從像素層面,它的連續(xù)性、邊緣效應可能有特定規(guī)律,就像模型有自己的“指紋”。
還有就是從大量數(shù)據(jù)中學到的一些不太好定義的經(jīng)驗特征,可以幫助我們給出一個概率判斷。AI生成再逼真,也會留下物理、幾何、時序上的細微痕跡:光影不一致、微結構扭曲、時間不連貫等。人眼看不出來,但算法可以捕捉。
NBD:檢測的難點具體在哪里?
董晶:AI生成的檢測本質上是弱信號檢測,生成模型的目標就是無限逼近真實視頻,而檢測任務則要在高度逼真的內容中,精準識別出偽造痕跡。你越了解生成式技術,就越了解它可能假在哪里。所以我們一定要從生成式原理出發(fā),脫離技術本質空談檢測,無異于閉門造車。
另一個難點是,弱信號的檢測,其特性往往沒有一個在語義層面可表達、可解釋的規(guī)律,很難找到普適的特性。所以我們需要不斷補全知識盲區(qū),把經(jīng)驗加進去。
NBD:會存在越短的視頻越難檢測嗎?很多用戶會覺得看AI視頻,感覺多看幾秒就能發(fā)現(xiàn)它是AI。那生成個3秒的視頻,是不是更難發(fā)現(xiàn)?
董晶:這個跟時間長短沒有絕對關系。你要說短,那圖像更短,但圖像的檢測率,在我們很多實際觀測中,可能比視頻更高。
這其中可能是用到了一些認知機理。人類多看幾秒,相當于多學了一段時間,從這個角度說,學習時間越長,對知識掌握能力越強,這可能符合人類的認知關系。從科學研究的角度來看,檢測效果與視頻時長沒有本質關聯(lián)。關鍵在于對問題本質的認知深度:是否真正理解偽造特征、能否有效建模并學習到這些關鍵線索。
我們目前研究發(fā)現(xiàn),AI生成視頻的檢測難度有一明顯特性:視頻場景頻繁切換、不連續(xù)(如頻繁跳場),會因引入大量無序擾動信息,顯著增加檢測難度。反之,視頻保持幾秒連續(xù)穩(wěn)定、連續(xù)性特征越多,越利于檢測——連續(xù)場景可減少擾動,便于捕捉生成視頻的固有偽造痕跡,提升檢測效果。
NBD:有一種觀點認為,檢測永遠追不上生成,您怎么看?
董晶:現(xiàn)階段檢測仍然略占優(yōu)勢,但雙方處于持續(xù)拉鋸。生成追求視覺逼真,檢測抓的是物理規(guī)律、幾何一致性、模型痕跡這些人類難以察覺的底層漏洞。短期看,新生成方法剛出現(xiàn)時,檢測會短暫滯后,但很快能追上。長期看,賽道會發(fā)生變化,未來不再是單純攻防,而是可信水印、生成溯源、多模態(tài)校驗、全鏈路合規(guī)的主動防御體系。
NBD:您同時涉足生成和檢測,怎么理解這兩者的關系?
董晶:我更愿意定義為相互成就、螺旋上升的共生關系。生成技術不斷逼近真實,主動暴露識別系統(tǒng)的漏洞,逼著安全技術變強;檢測與安全技術不斷升級,又反過來約束生成走向規(guī)范、可信、安全,讓技術不被濫用。
沒有攻,就沒有堅固的守;沒有盾,生成也無法真正落地。它們共同推動整個人工智能領域,從可用走向好用、可靠、可信。
NBD:現(xiàn)在做AI安全研究,重點在哪些方面?
董晶:安全是一個整體觀念,它不是某一個方面的安全,而是有衍生效應。有內生安全,也有外生賦能安全,技術本身可能有脆弱性,也可能延伸到其他領域帶來新的安全問題。
我一方面是在做生成的技術,我會考慮這些前沿技術怎么應用,但應用的過程中,又要測試它會不會帶來安全問題,我們要去測試一下。所以我們既做生成也做檢測。相當于自己對抗自己,很多技術在我的課題組我都分成兩個課題、兩個小組在做,然后讓他們互相battle。
NBD:當生成內容足以以假亂真時,怎么建立一套有效的溯源機制?
董晶:要防止AI被濫用、成為造謠與詐騙工具,不能只靠事后檢測,必須建立一套從生成到傳播全鏈路可追溯的可信體系。
首先要從源頭強制留痕,未來所有商用AI生成模型,都應該嵌入不可篡改的數(shù)字水印、模型指紋、生成日志,讓圖片、視頻在生成的那一刻,就自帶出生證明,記錄生成主體、時間、模型信息,做到誰生成、誰負責。
其次,在傳播環(huán)節(jié)建立可信校,社交平臺、短視頻平臺應接入統(tǒng)一的內容核驗接口,自動識別內容是否為AI生成、是否被篡改。
同時,完善法律與制度保障,明確平臺、開發(fā)者、使用者的責任邊界,讓技術溯源結果能夠成為法律證據(jù)鏈的一部分。
NBD:未來在身份驗證、隱私保護方面,技術趨勢是什么?
董晶:現(xiàn)在的檢測技術需要更多從認知角度去做可解釋性,不能只告訴用戶“這是假的”,還要告訴他“為什么是假的”。下次看到同類內容,用戶自己就有判斷力了。我們要找出那些人類可以理解、但視覺難以察覺的底層漏洞,比如違背了哪些圖像或視頻中的幾何規(guī)律、物理規(guī)律。如果只告訴真假,未來生成式內容越來越多,大家只會越來越眼花繚亂。
NBD:在AI和科技行業(yè),女性比例仍然偏低。您怎么看?
董晶:客觀上女性比例仍偏低,但女性正在快速崛起,且具備獨特優(yōu)勢:更細膩、更注重細節(jié)、更擅長溝通協(xié)作、更關注技術的人文與倫理價值,這些正是下一代AI最需要的能力。
我也遇到過現(xiàn)實挑戰(zhàn):在學術會議中是少數(shù)群體;需要在事業(yè)與生活中做更多平衡;也聽過一些隱性偏見,比如女性不適合硬核算法。但我始終相信:性別從來不是能力的分界線,專業(yè)、熱愛、堅持,才是決定能走多遠的關鍵。
NBD:很多女性往往因為“能力不足”的自我懷疑而錯失機會。您有過類似經(jīng)歷嗎?
董晶:我非常認同,也完全有過。職業(yè)生涯早期,面對重要機會,我也會猶豫:我準備好了嗎?能做好嗎?后來我意識到,沒有人天生就準備好,大家都是在一次次上場中變強的。我的辦法很簡單:先接住,再做好;先上場,再變強。不要等完美了再出發(fā),要在出發(fā)的路上,把自己變成更合適的人。
NBD:對想要進入AI行業(yè)的年輕人,尤其是女性,有什么建議?
董晶:不要受限。如果想進來就服從你的本心,因為你是有選擇的權利。如果你足夠優(yōu)秀,你想進任何行業(yè),都應該相信自己能成功。
而且不要覺得你是第一個吃螃蟹的,這個領域里有很多先行者。如果你真想成功,你可以研究你的前輩是怎么在這個行業(yè)里做到長期主義的,因為在科研或者科技領域,長期主義是需要一開始就有打算,而不是只憑一時興趣進來。
另外,我覺得還是要鼓勵女性進來。很多科技女性在技術開發(fā)階段比男性更有溫度,她們很多的技術可能最終就用到比如說教育和醫(yī)療。這是現(xiàn)在AI可能最重要的兩個領域,未來需要女性從業(yè)者的智力或者能力,或者說她們的智慧。
封面圖片來源:受訪者供圖
如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP