中國西藏網(wǎng) > 即時新聞 > 國內(nèi)

比唇語專家更懂唇語 讀唇語軟件識別準確率遠超人類

發(fā)布時間:2023-03-01 11:12:00來源: 科技日報

  讀唇語軟件識別準確率遠超人類

  “動動嘴皮子”,AI就能知道你在說啥

  可以想見,由于公益、公共安全、國家安全等領(lǐng)域巨大的潛在需求的牽引,以及AI技術(shù)飛速發(fā)展的強力推動作用,在不久的將來,AI讀唇語有望實現(xiàn)快速推廣與深度普及,產(chǎn)業(yè)前景十分可期。

  ——閆懷志 北京理工大學計算機學院副教授、網(wǎng)絡與安全研究所所長

  ◎本報記者 翟冬冬

  雖然電視劇《狂飆》已經(jīng)迎來了大結(jié)局,但熱度仍然沒有絲毫減弱,有的網(wǎng)友利用劇中人物創(chuàng)作娛樂視頻,也有的網(wǎng)友剪輯其中精彩片段。不過,還有一些“較真”的網(wǎng)友,發(fā)現(xiàn)《狂飆》中的一些人物對話,配音和嘴型對不上,于是便想通過人工智能進行唇語識別,還原最初的劇本情節(jié)。

  然而,AI讀唇語并非只能被用于破譯“隱藏劇情”。據(jù)統(tǒng)計,我國聽力殘障人口超過2054萬,除了主要的手語交流外,讀唇語也是他們重要的溝通方式。但人工解讀唇語容易受到個人經(jīng)驗、視覺感受能力、語言理解能力等因素影響,在正確率方面差強人意,于是人們開始嘗試利用AI技術(shù)來解讀唇語。

  比唇語專家更懂唇語

  “所謂AI讀唇語,即人工智能唇語識別,其核心技術(shù)框架為視覺識別和自然語言處理。”北京理工大學計算機學院副教授、網(wǎng)絡與安全研究所所長閆懷志介紹道,具體而言,就是利用機器視覺技術(shù),將人臉從圖像中連續(xù)識別出來,并提取其中連續(xù)的口型變化特征,輸入至唇語識別模型,辨識出該人物口型對應的發(fā)音,進而輸出可能性最大的表達語句。

  “視覺識別和自然語言處理分別有著龐大的技術(shù)體系和不同的技術(shù)路線,但究其本質(zhì),都是通過大量的唇語數(shù)據(jù)來訓練AI模型,力求文本輸出的準確性?!遍Z懷志補充道。

  近幾年,不斷有AI巨頭開始在唇語識別賽道上作出嘗試。谷歌旗下Deep Mind公司就與英國牛津大學合作,研發(fā)出了一款AI讀唇語軟件,通過讓AI讀唇語軟件“收看”數(shù)千小時的電視節(jié)目來訓練其唇語識別能力。有意思的是,在隨機抽取200個視頻片段的讀唇語測試中,AI讀唇語軟件的準確率達到了46.8%,而經(jīng)過專業(yè)訓練的人類讀唇語專家,準確率僅為12.4%。

  為何AI讀唇語能夠悄然興起?閆懷志給出了自己的分析:一是強烈的需求牽引,二是巨大的技術(shù)推動。從需求牽引來說,唇語識別不僅可為部分殘障人士提供方便,更可以在公共安防等諸多領(lǐng)域發(fā)揮巨大作用;從技術(shù)推動來說,由于AI算法、算力以及數(shù)據(jù)瓶頸被不斷突破,使得AI技術(shù)在唇語識別領(lǐng)域取得較大成功成為現(xiàn)實。

  眾多難題有待突破

  不過,閆懷志也表示,目前我國人工智能唇語識別技術(shù)尚處于起步階段,若想利用人工智能準確地識別唇語,還有很長的路要走。

  從語言本身來看,人類語言具有較高的復雜性,在人類話語所涉及的所有音標中,僅有30%左右是直接由人類嘴唇來控制的,70%是難以通過肉眼,甚至是機器視覺區(qū)分的齒音、舌音以及喉音。而且,不同人說話的語氣、方言、連詞、口音,乃至胡須遮蓋等因素,都會導致嘴型的細微變化,而恰恰是這種細微變化,會嚴重影響人工智能對于唇語的識別和判斷。

  從技術(shù)層面來看,人工智能采集唇語的環(huán)境通常較為復雜,若想精準識別難度很高。以目前的人工智能技術(shù)而言,對于長句、復雜句式等的識別水平不盡如人意,更不用說還存在著多場景識別、多人像唇語識別等問題。

  閆懷志表示,只有解決了上述問題,AI讀唇語才能得到突破性提升,邁向成熟發(fā)展階段。

  人類不同語種之間千差萬別,AI能讀懂每個語種的唇語嗎?

  閆懷志介紹,此前較為成功的AI讀唇語系統(tǒng)大多僅限于英語模型,這是因為多數(shù)AI模型都是基于英語數(shù)據(jù)訓練而得。但是,從技術(shù)框架上來說,不同語種的訓練模型是基本一致的,或者說可以依賴于同一類技術(shù)手段來實現(xiàn)。

  當然,為了適應不同語種的唇語識別,也需要作一些適應性調(diào)整:一方面要選擇對應語種的數(shù)據(jù)進行有針對性的訓練;另一方面,還需要對AI模型進行調(diào)整,比如納入時間屏蔽、優(yōu)化語言模型以及改進超參數(shù)等。

  此外,同一語種也會有不同口型,即便口型類似,也可能代表著完全不同的意思。因此,成熟的AI讀唇語系統(tǒng)需要大量的唇語特征樣本數(shù)據(jù),并盡可能地覆蓋多種應用場景、多類型的說話人群,借此來提升訓練后的唇語識別模型的泛化能力,提高AI讀唇語對于不同口型和不同表意語言的識別準確率。

  亟須監(jiān)管的技術(shù)雙刃劍

  盡管存在種種難題,但仍有越來越多的AI企業(yè)開始涉足并計劃深耕人工智能唇語識別賽道。目前來看,各大AI巨頭的選擇不盡相同,具體可分為唇語數(shù)據(jù)、唇語視頻識別、唇語理解等。

  閆懷志也表示,目前許多人工智能唇語識別技術(shù)領(lǐng)域已實現(xiàn)初步突破,全鏈條集成前景可期,產(chǎn)業(yè)集群正在逐步形成。

  從應用場景來看,AI讀唇語在社會公益、公共安全等領(lǐng)域都已開始嶄露頭角。從目前各大巨頭的布局以及相關(guān)技術(shù)的發(fā)展趨勢來看,AI讀唇語預期可在身份識別、國家安全、智慧系統(tǒng)等方面具有廣闊的應用前景?!翱梢韵胍?,由于公益、公共安全、國家安全等領(lǐng)域巨大的潛在需求的牽引,以及AI技術(shù)飛速發(fā)展的強力推動作用,在不久的將來,AI讀唇語有望實現(xiàn)快速推廣與深度普及,產(chǎn)業(yè)前景十分可期?!遍Z懷志說。

  例如,在安防安監(jiān)領(lǐng)域,很多安監(jiān)場景噪音較大或僅有視頻信號,無法準確捕捉聲音,人工智能唇語識別技術(shù)就能派上用場;在身份識別領(lǐng)域,可以利用AI讀唇語來實現(xiàn)口型支付密碼輸入,“動動嘴唇”就能實現(xiàn)身份識別和支付交易;在公共安全領(lǐng)域,利用AI讀唇語,可以在各類視頻中分析案件當事人的唇語信息,輔助案件偵查工作;在智慧系統(tǒng)領(lǐng)域,可利用AI讀唇語來實現(xiàn)“無聲勝有聲”——只依靠口型來控制智能設(shè)備,比如智能家電等。

  當然,技術(shù)應用是把雙刃劍。很多人擔心,AI讀唇語會使人們對話中的隱私內(nèi)容遭到泄露,無論當事人是公開發(fā)言、竊竊私語或是自言自語?!皬垙堊臁本捅粍e人竊取聊天內(nèi)容,仔細想來確實可怕。

  閆懷志表示,這種擔心并非杞人憂天。AI讀唇語導致的隱私泄露,一方面可能是有人惡意進行唇語獲取識別,另一方面也可能是正常使用的AI讀唇語系統(tǒng),但其中的存儲、使用等環(huán)節(jié)保護不當,導致相關(guān)數(shù)據(jù)被竊取或濫用,進而對個人權(quán)益造成損害。而且,由于涉及到當事人的對話內(nèi)容,具有明顯的方向性,這種隱私泄露的危害性可能要比普通的個人信息泄露更為嚴重。

  因此,閆懷志建議,應從隱私安全保護的角度,在管理層面加強相關(guān)法律法規(guī)的制定,嚴格規(guī)范和約束AI讀唇語的應用場景、范圍和目的,加大對技術(shù)惡意利用的監(jiān)管和懲戒力度。此外,還要在技術(shù)層面加強AI讀唇語系統(tǒng)的安全保護體系建設(shè),以技術(shù)手段提高系統(tǒng)的識別精準度,避免技術(shù)濫用,切實保障用戶對話的內(nèi)容安全。(科技日報)

(責編:陳濛濛)

版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責任。

项城市| 安新县| 海原县| 额敏县| 嘉黎县| 滨州市| 涟水县| 夏邑县| 启东市| 论坛| 繁峙县| 万源市| 普定县| 连江县| 清水河县| 扎兰屯市| 时尚| 甘泉县| 洱源县| 右玉县| 屏南县| 长乐市| 阜康市| 伊通| 越西县| 洪雅县| 澄江县| 雅江县| 全椒县| 闽清县| 大埔县| 新营市| 长沙县| 衡阳市| 贵港市| 仙桃市| 乐至县| 汝州市| 新竹县| 武安市|