解決AI“高分低能”需要升級(jí)的是考核機(jī)制_國(guó)內(nèi)_中國(guó)西藏網(wǎng)

<rt id="s2kkc"></rt>

<ul id="s2kkc"></ul>

中國(guó)西藏網(wǎng) > 即時(shí)新聞 > 國(guó)內(nèi)

解決AI“高分低能”需要升級(jí)的是考核機(jī)制

發(fā)布時(shí)間：2022-06-14 11:23:00來(lái)源：科技日?qǐng)?bào)

　　解決AI“高分低能”需要升級(jí)的是考核機(jī)制

　　目前部分人工智能沉迷刷榜，在基準(zhǔn)測(cè)試時(shí)高分通過(guò)，表現(xiàn)優(yōu)異，但實(shí)際應(yīng)用中卻還會(huì)犯一些非?；A(chǔ)的錯(cuò)誤。

　　◎本報(bào)記者華凌

　　近日，有媒體報(bào)道，目前部分人工智能沉迷刷榜，在基準(zhǔn)測(cè)試時(shí)高分通過(guò)，表現(xiàn)優(yōu)異，但實(shí)際應(yīng)用中卻還會(huì)犯一些非?；A(chǔ)的錯(cuò)誤。這種沉迷刷榜，忽略實(shí)用性質(zhì)的行為造成了部分AI模型“高分低能”的現(xiàn)象。那么，對(duì)于AI發(fā)展而言，基準(zhǔn)測(cè)試是否必要？在實(shí)際應(yīng)用中，基準(zhǔn)測(cè)試哪些問(wèn)題有待改進(jìn)完善呢？

　　AI模型哪家好，基準(zhǔn)測(cè)試來(lái)說(shuō)話

　　AI模型應(yīng)該如何衡量其性能？

　　“目前AI模型能力的高低取決于數(shù)據(jù)，因?yàn)锳I的本質(zhì)是學(xué)習(xí)數(shù)據(jù)，輸出算法模型。為了公平衡量AI能力，很多機(jī)構(gòu)、企業(yè)甚至科學(xué)家會(huì)收集、設(shè)計(jì)不同的數(shù)據(jù)集，其中一部分喂給AI訓(xùn)練，得到AI模型，另外一部分?jǐn)?shù)據(jù)用于考核AI模型的能力，這就是基準(zhǔn)測(cè)試。”近日，西安電子科技大學(xué)電子工程學(xué)院教授吳家驥接受科技日?qǐng)?bào)記者采訪時(shí)表示。

　　吳家驥介紹說(shuō)，機(jī)器學(xué)習(xí)越來(lái)越多地用于各種實(shí)際應(yīng)用場(chǎng)景，例如圖像和語(yǔ)音識(shí)別、自動(dòng)駕駛汽車(chē)、醫(yī)學(xué)診斷等。因此，了解其在實(shí)踐中的行為和性能變得非常重要。其魯棒性和不確定性的高質(zhì)量估計(jì)對(duì)于許多功能至關(guān)重要，尤其是在深度學(xué)習(xí)領(lǐng)域。為掌握模型的行為，研究人員要根據(jù)目標(biāo)任務(wù)的基線來(lái)衡量其性能。

　　2010年，基于ImageNet數(shù)據(jù)集的計(jì)算機(jī)視覺(jué)競(jìng)賽的推出，激發(fā)了深度學(xué)習(xí)領(lǐng)域一場(chǎng)算法與數(shù)據(jù)的革命。從此，基準(zhǔn)測(cè)試成為衡量AI模型性能的一個(gè)重要手段。微軟公司的計(jì)算機(jī)科學(xué)家馬塞洛·里貝羅表示，基準(zhǔn)測(cè)試應(yīng)該是從業(yè)者工具箱中的一個(gè)工具，人們用基準(zhǔn)來(lái)代替對(duì)于模型的理解，通過(guò)基準(zhǔn)數(shù)據(jù)集來(lái)測(cè)試“模型的行為”。

　　例如，在自然語(yǔ)言處理領(lǐng)域，GLUE科研人員讓AI模型在包含上千個(gè)句子的數(shù)據(jù)集上訓(xùn)練，并在9個(gè)任務(wù)上進(jìn)行測(cè)試，來(lái)判斷一個(gè)句子是否符合語(yǔ)法，并分析情感，或者判斷兩個(gè)句子之間是否是邏輯蘊(yùn)涵等，一度難倒了AI模型。隨后，科研人員提高了基準(zhǔn)測(cè)試難度，一些任務(wù)要求AI模型不僅能夠處理句子，還要處理來(lái)自維基百科或新聞網(wǎng)站的段落后回答閱讀理解問(wèn)題。僅經(jīng)過(guò)1年的發(fā)展，AI模型的性能從不到70分輕松達(dá)到90分，超越了人類(lèi)。

　　吳家驥表示：“科學(xué)研究要有科學(xué)問(wèn)題、方法、計(jì)算、試驗(yàn)對(duì)比等要素。因此在進(jìn)行科學(xué)研究，包括人工智能的科研中，也必須有計(jì)算與試驗(yàn)對(duì)比，也就是說(shuō)AI算法的能力應(yīng)該是可測(cè)量的，目的是驗(yàn)證研究方法的可行性、有效性。因此，基準(zhǔn)測(cè)試很有必要，這樣才可以公平驗(yàn)證AI算法能力的高低好壞，避免各說(shuō)各話，‘王婆賣(mài)瓜自賣(mài)自夸’?！?/p>

　　算法最終服務(wù)實(shí)踐，而非刷榜

　　有人說(shuō)，高分是AI模型的興奮劑。于是，有的人工智能為了取得好成績(jī)而頻頻刷榜。

　　微軟公司2020年發(fā)布報(bào)告指出，包括微軟、谷歌和亞馬遜在內(nèi)的各種sota模型包含諸多隱含錯(cuò)誤，比如把句子里的“what's”改成“what is”，模型的輸出結(jié)果就會(huì)截然不同，而在此前，從沒(méi)有人意識(shí)到這些曾被評(píng)價(jià)還不錯(cuò)的商業(yè)模型竟會(huì)在應(yīng)用中如此糟糕。顯然，這樣訓(xùn)練出的AI模型就像一個(gè)只會(huì)考試、成績(jī)優(yōu)異的學(xué)生，可以成功通過(guò)科學(xué)家設(shè)置的各種基準(zhǔn)測(cè)試，卻不懂為什么。

　　“為了獲得好成績(jī)，研究人員可能會(huì)使用特殊的軟硬件設(shè)置對(duì)模型進(jìn)行調(diào)整和處理，讓AI在測(cè)試中表現(xiàn)出色，但這些性能在現(xiàn)實(shí)世界中卻無(wú)法施展。”西安電子科技大學(xué)研究員尚坤指出。

　　在智能手機(jī)領(lǐng)域，我們談及手機(jī)的使用體驗(yàn)時(shí)一般都不免會(huì)涉及手機(jī)的性能表現(xiàn)，這些性能通常會(huì)用跑分成績(jī)來(lái)表現(xiàn)。然而，我們常常會(huì)遇到一款手機(jī)的跑分成績(jī)處于排行榜領(lǐng)先水平，但是在實(shí)際使用過(guò)程中卻出現(xiàn)動(dòng)畫(huà)掉幀、頁(yè)面滑動(dòng)卡頓、應(yīng)用假死等的現(xiàn)象。全球頂級(jí)評(píng)測(cè)網(wǎng)站AnandTech的一篇報(bào)道曾對(duì)這種現(xiàn)象提出質(zhì)疑，指出某品牌手機(jī)跑分時(shí)啟動(dòng)了“性能模式”，而在平時(shí)的使用中“性能模式”很少被調(diào)用開(kāi)啟。這種處理方式雖然能夠獲得高跑分，但是不能模擬用戶(hù)真實(shí)的使用情景，這讓基準(zhǔn)測(cè)試不具有參考意義。

　　尚坤認(rèn)為，針對(duì)上述問(wèn)題，改進(jìn)基準(zhǔn)的方法主要有：一種是增加更多的數(shù)據(jù)集，讓基準(zhǔn)變得更難。用沒(méi)有見(jiàn)過(guò)的數(shù)據(jù)測(cè)試，這樣才能判斷AI模型是否能夠避免過(guò)擬合。研究人員可創(chuàng)建一個(gè)動(dòng)態(tài)數(shù)據(jù)收集和基準(zhǔn)測(cè)試平臺(tái)，針對(duì)每個(gè)任務(wù)，通過(guò)眾包的方式，提交他們認(rèn)為人工智能模型會(huì)錯(cuò)誤分類(lèi)的數(shù)據(jù)，成功欺騙到模型的樣例被加入基準(zhǔn)測(cè)試中。如果動(dòng)態(tài)地收集數(shù)據(jù)增加標(biāo)注，同時(shí)迭代式的訓(xùn)練模型，而不是使用傳統(tǒng)的靜態(tài)方式，AI模型應(yīng)該可以實(shí)現(xiàn)更實(shí)質(zhì)性的進(jìn)化。

　　尚坤說(shuō)，另一種是縮小實(shí)驗(yàn)室內(nèi)數(shù)據(jù)和現(xiàn)實(shí)場(chǎng)景之間的差距?；€測(cè)試無(wú)論分?jǐn)?shù)多高，還是要用實(shí)際場(chǎng)景下的數(shù)據(jù)來(lái)檢驗(yàn)，所以通過(guò)對(duì)數(shù)據(jù)集進(jìn)行更貼近真實(shí)場(chǎng)景的增強(qiáng)和擴(kuò)容使得基準(zhǔn)測(cè)試更加接近真實(shí)場(chǎng)景。如ImageNet-C數(shù)據(jù)集，可根據(jù)16種不同的實(shí)際破壞程度對(duì)原有的數(shù)據(jù)集進(jìn)行擴(kuò)充，可以更好模擬實(shí)際數(shù)據(jù)處理場(chǎng)景。

　　應(yīng)用廣泛，需盡快建立國(guó)家標(biāo)準(zhǔn)

　　美國(guó)麻省理工學(xué)院Cleanlab實(shí)驗(yàn)室的研究指出，常用的10個(gè)作為基準(zhǔn)的數(shù)據(jù)集中，有超過(guò)3%的標(biāo)注是錯(cuò)誤的，基于這些基準(zhǔn)跑分的結(jié)果則無(wú)參考意義。

　　“如果說(shuō)，基準(zhǔn)測(cè)試堪稱(chēng)人工智能領(lǐng)域的‘科舉制’，那么，‘唯分?jǐn)?shù)論’輸贏，是不可能訓(xùn)練出真正的好模型。要打破此種現(xiàn)象，一方面需要采用更全面的評(píng)估方法，另一方面可以考慮把問(wèn)題分而治之，比如用多個(gè)AI模型解決復(fù)雜問(wèn)題，把復(fù)雜問(wèn)題轉(zhuǎn)化為簡(jiǎn)單確定的問(wèn)題。簡(jiǎn)單且經(jīng)過(guò)優(yōu)化的基線模型往往優(yōu)于更復(fù)雜的方法。谷歌的研究人員為常見(jiàn)的AI任務(wù)引入了不確定性基線庫(kù)，來(lái)更好評(píng)估AI應(yīng)用的穩(wěn)健性和處理復(fù)雜不確定性的能力。”遠(yuǎn)望智庫(kù)人工智能事業(yè)部部長(zhǎng)、圖靈機(jī)器人首席戰(zhàn)略官譚茗洲指出。

　　雖然行業(yè)正在改變對(duì)于基準(zhǔn)的態(tài)度，但目前基準(zhǔn)測(cè)試研究仍然是一個(gè)小眾研究。谷歌在一份研究中采訪了工業(yè)界和學(xué)術(shù)界的53位AI從業(yè)者，其中許多人指出，改進(jìn)數(shù)據(jù)集不如設(shè)計(jì)模型更有成就感。

　　譚茗洲表示，AI應(yīng)用基準(zhǔn)研究是構(gòu)建國(guó)內(nèi)統(tǒng)一大市場(chǎng)的內(nèi)在需要，當(dāng)前AI已經(jīng)在國(guó)計(jì)民生的各類(lèi)領(lǐng)域中得到廣泛應(yīng)用，更需要設(shè)立標(biāo)準(zhǔn)對(duì)AI模型進(jìn)行全面有效的評(píng)估，片面追求和采用高分AI模型，可能會(huì)讓模型在復(fù)雜極端場(chǎng)景下出現(xiàn)“智障”行為，并且可能由于訓(xùn)練和推理性能的低效，造成不良社會(huì)影響、經(jīng)濟(jì)損失和環(huán)境破壞。

　　譚茗洲強(qiáng)調(diào)，AI應(yīng)用基準(zhǔn)研究關(guān)乎國(guó)家戰(zhàn)略。針對(duì)重要領(lǐng)域，建立我國(guó)自己的AI基準(zhǔn)測(cè)試標(biāo)準(zhǔn)、AI數(shù)據(jù)集、AI模型評(píng)估標(biāo)準(zhǔn)等迫在眉睫。

　　據(jù)了解，西安電子科技大學(xué)的DvcLab也在AI基準(zhǔn)測(cè)試這個(gè)領(lǐng)域進(jìn)行了前瞻性研究，特別是針對(duì)AI應(yīng)用基準(zhǔn)測(cè)試中數(shù)據(jù)集的整體質(zhì)量與動(dòng)態(tài)擴(kuò)展兩個(gè)關(guān)鍵問(wèn)題，正在開(kāi)發(fā)可在線協(xié)作的數(shù)據(jù)標(biāo)注與AI模型研發(fā)托管項(xiàng)目，并計(jì)劃今年陸續(xù)開(kāi)源，正在為構(gòu)建國(guó)家AI基準(zhǔn)評(píng)估標(biāo)準(zhǔn)體系進(jìn)行積極探索。

（責(zé)編：陳濛濛）

版權(quán)聲明：凡注明“來(lái)源：中國(guó)西藏網(wǎng)”或“中國(guó)西藏網(wǎng)文”的所有作品，版權(quán)歸高原（北京）文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用，須注明來(lái)源中國(guó)西藏網(wǎng)和署著作者名，否則將追究相關(guān)法律責(zé)任。

相關(guān)閱讀

專(zhuān)題推薦

傲游截圖20180202095714.jpg

微觀

觀當(dāng)下

以身許國(guó)，革命不成功立誓不回家竭能力于萬(wàn)一，救人民于涂炭造一個(gè)光明燦爛的新世界萬(wàn)里赴戎機(jī)，關(guān)山度若飛

賞閱

雨后的甘孜州美景如畫(huà)

雨后的甘孜州美景如畫(huà)

西藏魯朗小鎮(zhèn)夏日風(fēng)光如畫(huà) 四川若爾蓋現(xiàn)雨后美景拉薩達(dá)孜：油菜花競(jìng)相綻放另一個(gè)角度的羊卓雍措

資料云

QQ截圖20200831163244.jpg

中央第七次西藏工作座談會(huì)

流淌的吉曲河——學(xué)歷史講拉薩雪域長(zhǎng)歌新時(shí)代?邊疆行——西藏篇一江清水向東流

即時(shí)新聞

關(guān)于我們|信息聲明|誠(chéng)聘英才|廣告服務(wù)|糾錯(cuò)熱線|中國(guó)西藏網(wǎng)舉報(bào)受理和處置管理辦法

中國(guó)西藏網(wǎng)版權(quán)所有，未經(jīng)書(shū)面授權(quán)禁止使用

中國(guó)西藏雜志社主辦版權(quán)所有：高原(北京)文化傳播有限公司 Copyright ? 2000-2017 by hamasdt.com All Rights Reserved

E-mail: xizangzongbianshi@163.com 違法和不良信息舉報(bào)電話：010-58336000 互聯(lián)網(wǎng)宗教信息服務(wù)許可證：京（2022）0000001

廣播電視節(jié)目制作經(jīng)營(yíng)許可證（京）字第04446號(hào) 京ICP備 17049894號(hào)-2 京公網(wǎng)安備110102001709-1

镇巴县| 西青区| 都昌县| 屯门区| 屏山县| 云安县| 潮安县| 盐山县| 应城市| 黔东| 潼关县| 包头市| 杨浦区| 伊宁市| 红原县| 隆林| 五河县| 尼木县| 丰镇市| 穆棱市| 甘南县| 仙游县| 和龙市| 达孜县| 开原市| 紫云| 调兵山市| 翁牛特旗| 襄汾县| 文登市| 门源| 乌苏市| 安图县| 太康县| 襄城县| 鄂尔多斯市| 文水县| 阿拉善右旗| 新绛县| 黎城县|

<ul id="akccs"></ul>

<nav id="akccs"><code id="akccs"></code></nav>