機器化學(xué)家誕生記:中國團隊歷時8年打造“最強化學(xué)大腦”
零距離
中國團隊歷時8年打造“最強化學(xué)大腦”
機器化學(xué)家誕生記
在中國科學(xué)技術(shù)大學(xué)的機器化學(xué)家實驗室,可以看見頗具科技感的一幕——一個體型“敦實”但動作靈活的機器人,在操作臺之間穿梭,伸出機械手臂配制試劑。實驗室另一邊,年輕科研人員正輸入指令,對機器人進行“隔空”控制。大部分情況下,這臺機器人會自主思考實驗的步驟和方案,像個不知疲憊的“小化學(xué)家”。
這是中國科學(xué)技術(shù)大學(xué)化學(xué)物理系教授江俊團隊的“作品”,該團隊開發(fā)了全球首個集閱讀文獻、自主設(shè)計實驗、覆蓋材料開發(fā)全流程的機器化學(xué)家平臺,從數(shù)以億計的可能組合中找到最優(yōu)解來加快材料研發(fā)?!皩嶒灁?shù)據(jù)經(jīng)處理后,輸入到平臺獨有的計算大腦中,產(chǎn)生理實交融的人工智能模型,幫助科研人員優(yōu)化實驗方案?!苯≌f。
江俊團隊有近30位成員,其中多數(shù)是90后、95后。10月上旬,團隊又添科研進展——通過開發(fā)和集成移動機器人、化學(xué)工作站、智能操作系統(tǒng)、科學(xué)數(shù)據(jù)庫,他們研制出數(shù)據(jù)智能驅(qū)動的全流程機器化學(xué)家。
該研究成果論文已在最新一期《國家科學(xué)評論》學(xué)術(shù)期刊發(fā)表。國際審稿人評價說,該成果的“機器人系統(tǒng)、工作站和智能化學(xué)大腦都是最先進的”“將對化學(xué)科學(xué)產(chǎn)生巨大影響”。業(yè)內(nèi)專家認為,機器化學(xué)家的研究工作脫離了傳統(tǒng)試錯研究范式的限制,展現(xiàn)出“最強化學(xué)大腦”指導(dǎo)的智能新范式的巨大優(yōu)勢,引領(lǐng)化學(xué)研究朝著知識理解數(shù)字化、操作指令化、創(chuàng)制模板化的未來趨勢前進。
那么,一個“聰明”到會做化學(xué)實驗的機器人是如何誕生的,其背后凝聚了年輕人怎樣的努力和心血?中青報·中青網(wǎng)記者進行了采訪。
“打造中國人自己的材料數(shù)據(jù)庫”
隨著化學(xué)研究的對象日益復(fù)雜化、高維化,傳統(tǒng)研究范式成本高、周期跨度長的問題日益突出。近年來,科技界逐漸意識到數(shù)據(jù)對于學(xué)術(shù)研究和產(chǎn)業(yè)創(chuàng)新發(fā)展的重要意義,而大數(shù)據(jù)科學(xué)與人工智能技術(shù)結(jié)合的手段,也在先進材料研發(fā)中嶄露頭角。
團隊核心成員肖恒宇是1995年生人,他本科就讀于中國科學(xué)技術(shù)大學(xué)少年班學(xué)院,出于興趣自學(xué)了人工智能。一次,他編寫的一個智能程序出現(xiàn)問題,于是向時任班主任的江俊請教。江俊一針見血地指出,“算法沒有問題,但算法依賴的實驗數(shù)據(jù)過于片面”。
江俊發(fā)現(xiàn),一段時間以來,我國科研團隊會將科研數(shù)據(jù)寫進英文論文,在國外期刊上發(fā)表,但等到要引用數(shù)據(jù)時,還得額外花錢去買。
“做中國人自己的材料數(shù)據(jù)庫”,成了江俊的夢想。在他的影響下,肖恒宇等人一起踏上實現(xiàn)這個夢想的道路。
肖恒宇的同學(xué)霍姚遠、馮超,學(xué)的是數(shù)學(xué)和化學(xué),喜歡研究數(shù)據(jù)。2014年開始,三人收集數(shù)據(jù)、挖掘文獻、尋找架構(gòu),江俊提供原理指導(dǎo)和研究資源。2016年,他們搭建了第一代材料數(shù)據(jù)檢索平臺,但使用反饋不太理想,有老師抱怨“數(shù)據(jù)不準(zhǔn)確”。
肖恒宇等人意識到,數(shù)據(jù)不僅要多,還要優(yōu)質(zhì)。他們的數(shù)據(jù)庫缺了最重要的一環(huán)——知識圖譜,這導(dǎo)致數(shù)據(jù)質(zhì)量良莠不齊,無法進行高效檢索。
建立知識圖譜并非易事,同學(xué)們要用專業(yè)知識區(qū)分?jǐn)?shù)據(jù)的關(guān)聯(lián)性,為圖像打上識別標(biāo)簽,讓電腦知道每個數(shù)據(jù)背后的物理意義。
團隊成員、博士生張百成記得,最初全靠幾位同學(xué)自己“打標(biāo)簽”,沒日沒夜地標(biāo)注了幾個星期,大家讀文獻讀得頭昏腦漲,卻只完成了任務(wù)量的1%,幾近絕望。
為此,江俊找到中國科大校團委,開展有獎讀文獻比賽,聯(lián)合更多有專業(yè)背景的大學(xué)生參與。由此,他們產(chǎn)生了第一批高質(zhì)量的標(biāo)記數(shù)據(jù)。
“眾人拾柴火焰高,大數(shù)據(jù)時代,要融合眾智、整合資源。”張百成說,利用這批數(shù)據(jù)訓(xùn)練智能算法,他們實現(xiàn)了第一代化學(xué)命名實體識別程序,后續(xù)的標(biāo)注任務(wù),可以先讓計算機自動識別,再進行人工檢驗,極大提升了效率。
最終,他們打磨出我國第一代材料科學(xué)知識圖譜。2021年,團隊用圖譜賦予機器人“小來”科學(xué)思維,團隊的自然語言處理技術(shù)也隨之“鳥槍換炮”,機器自動閱讀和識別的準(zhǔn)確度提高到90%。
“將數(shù)據(jù)變?yōu)閷嶋H生產(chǎn)力”
2016年,肖恒宇參加互聯(lián)網(wǎng)+創(chuàng)新創(chuàng)業(yè)大賽,獲安徽省冠軍、全國銀獎。投資機構(gòu)為他和團隊提供第一筆創(chuàng)業(yè)資金。成立公司后,團隊3次迭代知識圖譜,建立了含9000萬個化合物、1100萬條化學(xué)反應(yīng)路徑的大規(guī)模材料數(shù)據(jù)庫。團隊還借此幫助一些科研單位解決技術(shù)難題。
譬如,某航天企業(yè)發(fā)現(xiàn)組合發(fā)動機中的金屬配件材料需要改進,嘗試多種方案都未能實現(xiàn)。肖恒宇等人用數(shù)據(jù)平臺模擬出燃燒流場、大渦流場,并找到記憶金屬設(shè)計配方,這為該企業(yè)節(jié)省成本4300多萬元。
肖恒宇團隊還迎來了意外之喜——他們在為該企業(yè)解決問題的過程中,收集了10萬種合金演化結(jié)構(gòu)數(shù)據(jù)和金屬原子間相互作用能數(shù)據(jù),這些反過來豐富和完善了他們已有的數(shù)據(jù)庫平臺體系。
“以往做研究時,有人習(xí)慣將數(shù)值往自己想要的方向去調(diào)整,但是研究需要數(shù)據(jù)多樣性,要記錄偏見、有誤差的數(shù)據(jù)?!苯孕?,數(shù)據(jù)是科研和產(chǎn)業(yè)的共同語言,數(shù)據(jù)庫平臺就是連接科研與產(chǎn)業(yè)的橋梁,要產(chǎn)生更多高標(biāo)準(zhǔn)的數(shù)據(jù)反哺科研,將數(shù)據(jù)變?yōu)閷嶋H生產(chǎn)力。
目前,該團隊又建立了材料基因創(chuàng)新研究平臺,建成亞洲最大的材料數(shù)據(jù)庫平臺——機數(shù)大材庫。
江俊介紹,機器化學(xué)家平臺具有更強的化學(xué)智能和廣泛的新材料開發(fā)能力,涵蓋光催化與電催化材料、發(fā)光分子、光學(xué)薄膜材料等領(lǐng)域,適用范圍將隨平臺升級和拓展繼續(xù)擴大。
“從不擺爛,從不應(yīng)付交差”
每周開組會時,江俊只需要提出希望機器人解決的問題,學(xué)生們就會自己討論實施方案。設(shè)備沒有底層驅(qū)動程序,學(xué)生們就會攻關(guān)智能化升級。再后來開會時,江俊只能坐在一旁聽著,甚至插不上話。
讓他欣慰的是,幾位有交叉學(xué)科背景的年輕在讀博士,已經(jīng)成長為團隊“頂梁柱”:肖恒宇設(shè)計軟件框架;張百成編寫程序,讓機器人讀論文、提出科學(xué)假設(shè)、形成實驗報告和方案;趙路遠主攻電化學(xué)測試,負責(zé)烘干儀器、光譜儀等硬件的驅(qū)動程序開發(fā)。
25歲的趙路遠學(xué)電子科學(xué)技術(shù)出身。在她看來,克服科研難題主要靠毅力。她和師弟曹嘉祺一起編寫某驅(qū)動程序時,由于信息掌握不充足,無法準(zhǔn)確理解調(diào)用接口,“我們反復(fù)聯(lián)系儀器廠商和代理商,沒有回應(yīng)。我們決定自力更生。”
3周時間,兩人就像兩個機器人,除了吃飯睡覺外,重復(fù)做了3000次發(fā)送信號、等待反饋、記錄響應(yīng)等嘗試,一點一點逆向試出了底層控制邏輯,成功實現(xiàn)了對機器人的遠程控制。
“此時,儀器代理商主動找到我們,想要購買我們的驅(qū)動程序,我們覺得特別自豪。”趙路遠說。
2021年,團隊信心滿滿地開始機器人的首次試運行,不料,化學(xué)設(shè)備單獨運行正常,但參與系統(tǒng)聯(lián)調(diào)時卻無法使用。大家排查到半夜仍然沒有頭緒。
這時,肖恒宇突然意識到化學(xué)設(shè)備和機械臂均使用了紅外探測設(shè)備,可能會互相干擾。于是,他將機械臂換一個朝向,輕松解決了問題。
“往后的開發(fā)調(diào)試中,不同領(lǐng)域的儀器設(shè)備,不同系統(tǒng)的代碼協(xié)議間,都出現(xiàn)了類似的 ‘磨合’難題,而我們通過交叉學(xué)科思維,將它們逐一擊破。”肖恒宇說。
“一個方案受挫,大家不會擺爛,不會應(yīng)付交差,而是反復(fù)測試,看看究竟哪個環(huán)節(jié)出了問題?!毙ず阌钫f,科研伙伴身上有著相似特質(zhì)——對流程和技術(shù)的執(zhí)著。完成任務(wù)時,團隊成員總會想的比自己更多一點,不僅拿出方案,還會想好替代方案和若干發(fā)散選項。
在他看來,從開發(fā)測試,到改進迭代,再到升級,一個實驗分支由一人全部負責(zé),每個人都成長為“全能人才”。肖恒宇說,全身心投入科研時,所有知識都有用武之地。他一直自學(xué)3D動畫。課題組拍攝科普片時,他還包辦了分鏡頭和腳本撰寫。
肖恒宇曾在寧夏回族自治區(qū)海原縣一中支教。他利用閑置的傳感器等儀器,搭建了兩個小型實驗室,帶學(xué)生學(xué)化學(xué)、物理、信息,激發(fā)孩子們的科學(xué)興趣。他一直有個夢想,希望帶動更多年輕人合作研發(fā)更高水平、更具科研智慧的實驗平臺,讓中國的智能化學(xué)閃耀世界。
中青報·中青網(wǎng)記者 王海涵 王磊 (來源:中國青年報)
版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。
- 天宮課堂三度開講 迎來全新“太空教室”
- 改造水電氣 方便吃住行
- 十年跨越發(fā)展 教育“一塊屏”背后的公平和質(zhì)量
- 射擊世錦賽:中國隊8金仍居榜首 已鎖定4個巴黎奧運參賽席位
- 【二十大同期聲】林占熺:為記住中國的幫助,一國際友人給女兒改名菌草
- 北京今日依然北風(fēng)在線 風(fēng)寒效應(yīng)明顯需注意防風(fēng)保暖
- 【二十大同期聲】姜麗娟:鄉(xiāng)村老百姓的生活越過越紅火
- 銷售數(shù)據(jù)屢創(chuàng)新高 中國新能源汽車積極拓展歐洲市場
- 成都世乒賽團體賽激發(fā)體育熱情 展示城市活力
- 我國新增4處世界灌溉工程遺產(chǎn) 目前已達30處