天津理工大學鯨言創(chuàng)益團隊研發(fā)手語實時翻譯系統(tǒng)
天津理工大學鯨言創(chuàng)益團隊研發(fā)手語實時翻譯系統(tǒng)——
讓人工智能看懂手語(解碼·走近新職業(yè))
核心閱讀
一邊是聽障人士打著手語,一邊是屏幕上自動“翻譯”出文字。為了讓更多聽障人士被“聽見”,天津理工大學鯨言創(chuàng)益無障礙智能科技研發(fā)團隊用近5年時間,構(gòu)建起視頻語料庫,研發(fā)“復雜場景下中國手語實時翻譯系統(tǒng)”,讓人工智能技術(shù)帶給人們更多便利。
攝像頭前,張益彬左右手交替揮舞,嘴角伴隨手語動作微微上揚,一旁的顯示屏上,“陽光總在風雨后”7個字立刻顯示出來……
張益彬是天津理工大學聾人工學院網(wǎng)絡(luò)工程專業(yè)2019級學生,也是該校鯨言創(chuàng)益無障礙智能科技研發(fā)團隊的成員。在這個近60人的團隊中,超過一半成員是和張益彬一樣的聽障學生,他們用近5年時間構(gòu)建起一個包含30余萬條視頻的語料庫。如今,團隊打造的“復雜場景下中國手語實時翻譯系統(tǒng)”即將落地應(yīng)用。
大膽嘗試,將手語實時翻譯為語音或文字
2006年,袁甜甜成為天津理工大學聾人工學院計算機系的一名教師,對她來說,教學最大的困難是交流障礙。
當時,語音識別軟件尚未問世,學生又都是聽障人士,袁甜甜只能硬著頭皮自學手語,“一堂課下來,手舞足蹈,經(jīng)常滿頭大汗,一望臺下,學生們還是一臉茫然?!痹鹛鹫f,向?qū)W生傳遞信息很難,難上加難的是了解學生的想法。
第二次全國殘疾人抽樣調(diào)查數(shù)據(jù)顯示,我國約有聽障人士2780萬人。“時至今日,手語仍是聽障人士的‘母語’?!痹鹛鹫f,盡管近年來語音識別軟件普及,但表達的邏輯出發(fā)點始終繞不開健聽人,“對于聽障人士來說,聽懂是一方面,但他們最渴望的,還是被‘聽見’。”
2016年底,手語識別系統(tǒng)的雛形開始在袁甜甜腦海中清晰起來?!奥犝先耸吭跀z像頭前打出手語,視頻畫面經(jīng)過計算機的分析處理,轉(zhuǎn)換為文字或者語音?!痹鹛痍U釋設(shè)想,創(chuàng)新的邏輯出發(fā)點從健聽人變成了聽障人,也意味著沒有成熟的方案可以借鑒。“這是一次關(guān)乎‘表達’的探險。”袁甜甜說。
構(gòu)建算法,給計算機編一套手語教材
如果說“手語識別”和“語音識別”還有一些相似之處,那就是二者都必須依托于豐富的語料庫。如今,語音識別語料庫已十分成熟豐富,“語音的語料在自然狀態(tài)下非常便于獲取,但手語語料卻非常少?!痹鹛鹫f。
“另外,語音是一種‘單信道’的形式,而手語是‘多信道’,計算機要識別的不只有動作,還有表情和場景。”袁甜甜介紹,從對數(shù)據(jù)采集的支撐程度看,我國目前手語語言學的體系性并不強,“手語方言”比比皆是,這就給數(shù)據(jù)采集造成了極大困難。
“要將設(shè)想變?yōu)楝F(xiàn)實,就要先確立標準?!痹鹛鹫f,她和團隊成員確定了先易后難的思路,基于國家通用手語的標準采集數(shù)據(jù),“簡單來講,我們翻譯的是手語里的‘普通話’。”
王建源是聾人工學院網(wǎng)絡(luò)工程專業(yè)2018級學生,也是鯨言創(chuàng)益團隊的初創(chuàng)成員。他的工作是收集手語語料,這些語料便是視頻畫面。“招募志愿者,請他們來錄視頻,反反復復地錄?!蓖踅ㄔ础罢f”。
王建源從小在特殊學校求學,父母也都是聽障人士,他從不避諱在健聽人面前打出手語,因為他覺得手語很美?!暗牵终Z的美是復雜的,這個工程量太大了!”王建源笑著“說”。
兩年時間里,王建源和團隊其他成員幾乎每天都準時出現(xiàn)在學院的實驗室,有時忙到很晚,干脆席地而睡。如今,他們已經(jīng)收集到30余萬條語料,“經(jīng)過測算對比,距離中國漢語水平考試的4級水平僅差100多個詞了。”王建源介紹。
手語是一門視覺語言,有特定的語法、語序。手勢、表情、肢體動作自由排列組合,表達的便是不同的意思。在袁甜甜的設(shè)想中,這套系統(tǒng)呈現(xiàn)的內(nèi)容,不應(yīng)該是由漢語單詞羅列而成的句子,而是在輸入端和輸出端既要遵循手語語序、語境,也要符合漢語的表述邏輯。
天津理工大學計算機學院研一學生孫悅把自己在團隊中的工作形容為“修橋”?!熬湍谩柟饪傇陲L雨后’這句話來說,手語的語序是‘風/雨/結(jié)束/陽光’,這顯然讓人看不懂?!睂O悅說,她和伙伴們逐漸構(gòu)建起一套手語識別算法框架模型,“通俗來說,就是我們給計算機編了一套‘手語教材’。”有了這套“教材”,豐富的語料庫就有了用武之地,相當于找到了手語轉(zhuǎn)換為漢語的規(guī)律,“橋”修通了,數(shù)據(jù)才能跑得順暢。如今,這個模型已經(jīng)基本能夠?qū)崿F(xiàn)“復雜場景下的手語實時翻譯”。
搭建橋梁,手語翻譯應(yīng)用于更多場景
2019年,袁甜甜領(lǐng)銜的“復雜場景下中國手語實時翻譯系統(tǒng)”入選工信部新一代人工智能產(chǎn)業(yè)創(chuàng)新重點任務(wù)揭榜項目,并獲得國家資金支持,這也加快了整個團隊前進的步伐。
去年5月,他們把研究成果帶進了在天津舉行的第五屆世界智能大會的會場,獲得點贊?!爱敃r系統(tǒng)已經(jīng)涵蓋教育、法律、餐飲、交通等應(yīng)用場景,在光線充足的環(huán)境下,識別率可達95%。”袁甜甜說,如今,這套系統(tǒng)還在升級,“我們的目標是100萬條語料,基本覆蓋社會生活的常用場景。”
最讓張益彬難忘的是,去年10月,他和團隊合力研發(fā)的項目《“鯨可語”——多模態(tài)連續(xù)手語自動標注識別系統(tǒng)》榮獲第七屆中國國際“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽全國總決賽金獎,而自動標注識別是手語翻譯的關(guān)鍵一環(huán)。這也證明了“張益彬們”的努力得到了國內(nèi)科創(chuàng)界的高度關(guān)注。
聞訊而來的合作方越來越多,這讓團隊成員對于系統(tǒng)未來的應(yīng)用場景有了無盡暢想。不久前,天津市急救中心也找到他們,希望引入這套系統(tǒng)?!敖?jīng)常碰到急救對象是聽障人士,生命垂危之際,打字交流效率太低了,往往只能用手語表達?!痹鹛鹫f。
今年之內(nèi),這套系統(tǒng)將應(yīng)用于天津理工大學的辦公樓。到時,樓內(nèi)大廳將出現(xiàn)一個交互機器人和一塊交互大屏,所有聽障人士都可以被“聽見”。
本報記者 李家鼎
版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責任。