中國科技創(chuàng)新“乘”數直上
當今時代,數據已成為重要的創(chuàng)新要素。人工智能大模型、新材料創(chuàng)制、生物育種、基礎科學研究等都離不開數據的支撐。
國家數據局等17部門近日印發(fā)《“數據要素×”三年行動計劃(2024—2026年)》,明確開展“數據要素×科技創(chuàng)新”行動,從推動科學數據有序開放共享、強化高質量科學數據資源建設和場景應用、以科學數據助力前沿研究、以科學數據支撐技術創(chuàng)新、以科學數據支持大模型開發(fā)、探索科研新范式等方面闡述了數據要素與科技創(chuàng)新相結合的著力點。
從支持基礎研究,到助力前沿技術如人工智能的發(fā)展,再到推動科研方法的變革,借著“數據要素×”三年行動計劃的“東風”,中國的科技創(chuàng)新正在“乘”數直上。
建好“軟硬件”
推動科學數據有序開放共享,促進重大科技基礎設施、科技重大項目等產生的各類科學數據互聯(lián)互通,支持和培育具有國際影響力的科學數據庫建設,依托國家科學數據中心等平臺強化高質量科學數據資源建設和場景應用,是“數據要素×科技創(chuàng)新”行動的重要目標之一。
建好相關“軟硬件”,各地正在積極布局。
2024年,北京將推動算力中心、數據訓練基地、國家區(qū)塊鏈樞紐節(jié)點等一批重大項目落地。
江蘇將體系化推進5G、千兆光網規(guī)模部署,支持蘇州國家級互聯(lián)網骨干直聯(lián)點建設,加快智能算力、邊緣計算等算力設施布局。
四川提出適度超前建設數字信息基礎設施,加快建設“東數西算”工程國家樞紐節(jié)點,建設全省算力調度服務平臺,構建算力、存力、運力一體化算網融合發(fā)展體系。
山東提出部署高性能智能計算中心,統(tǒng)籌布局通用和垂直大模型算力,累計建成5A級省級新型數據中心25個以上,智能算力比例達到30%,建成“山東算網”。支持濟寧建設魯南算力中心。深入實施“雙千兆”網絡系統(tǒng)工程,打造典型應用項目500個以上,新開通5G基站4萬個。
“硬件”設施加強,“軟件”設施也需要提升。
“互聯(lián)網是數據流通、匯聚的平臺,是數字經濟時代基礎設施的關鍵。”中國科學院院士梅宏表示,需要加快構建數聯(lián)網和數據空間等新基礎設施。
2021年,中國科學院發(fā)布了一款具有國際化服務能力的開放的通用型科學數據存儲與發(fā)布平臺——科學數據銀行(ScienceDB)。
科學數據銀行由中科院計算機網絡信息中心自主研發(fā),是一個論文關聯(lián)數據存儲平臺,能夠為論文關聯(lián)數據的匯聚、管理、開放、共享提供高效的解決方案,為落實科研誠信、培育共享文化、加快數據流轉和促進國際合作提供平臺和服務保障。
科研人員可以把各自收集整理的科學數據在科學數據銀行里進行儲存和出版,而科學數據銀行通過吸納“數據存款”,“變小錢為大錢,變死錢為活錢”,把分散在個人和集體中的數據資源集中起來,使其更容易被發(fā)現、訪問、互操作和重用。同時,學術論文投稿前,科研人員也可以將論文數據上傳到科學數據銀行。
截至今年2月2日,科學數據銀行共收集了開放數據集820多萬個,平臺訪問量超過7億次。
開發(fā)大模型
開發(fā)人工智能大模型是“數據要素×科技創(chuàng)新”行動的另一個重要目標。
《“數據要素×”三年行動計劃(2024—2026年)》中提出,以科學數據支持大模型開發(fā),深入挖掘各類科學數據和科技文獻,通過細粒度知識抽取和多來源知識融合,構建科學知識資源底座,建設高質量語料庫和基礎科學數據集,支持開展人工智能大模型開發(fā)和訓練。
近年來,中國在大模型領域擁有良好的算力基礎和廣闊的市場,國產大模型頻頻亮相、加速迭代。工業(yè)和信息化部賽迪研究院數據顯示,目前,中國已有超過19個大語言模型研發(fā)廠商,其中,15家廠商的模型產品已經通過備案。
憑借語言理解、邏輯推理、知識問答、文本生成等通用能力,這些大語言模型產品一經推出,便受到用戶的歡迎。
“科技創(chuàng)新實現新突破。訊飛星火認知大模型處于全國領先水平?!边@是寫進今年安徽省《政府工作報告》中的一句話。
訊飛星火是科大訊飛公司在2023年5月正式發(fā)布的新一代認知大模型,從發(fā)布至今歷經多次迭代,不斷升級核心能力的技術底座,持續(xù)賦能各行各業(yè)。目前,訊飛星火在國務院發(fā)展研究中心國研經濟研究院、新華社研究院中國企業(yè)發(fā)展研究中心等機構的多次評測中獲得肯定,被譽為中國優(yōu)質的國產大模型。
“只有把大模型建立在完全自主可控的平臺上,我們才能把通用人工智能時代的發(fā)展主動權牢牢掌握在自己手里?!笨拼笥嶏w研究院院長劉聰對記者說。2023年10月,在科大訊飛全球1024開發(fā)者節(jié)上,科大訊飛宣布聯(lián)合華為打造國產大模型算力底座“飛星一號”平臺,在此基礎上,訊飛星火大模型開啟了更大規(guī)模的訓練。
目前,基于“飛星一號”的訊飛星火V3.5已完成訓練,并于1月30日發(fā)布。升級后的訊飛星火V3.5在邏輯推理、語言理解、文本生成、數學答題、多模態(tài)等方面的能力均顯著提升。同時,訊飛還發(fā)布了星火語音大模型和開源大模型。
“大模型帶來了語音技術發(fā)展的全新機會?!眲⒙斦f。讓機器具備學習、推理和決策的能力,就是認知大模型要干的主要工作。
“我們認為,未來人工智能大模型的發(fā)展可能會有以下四個趨勢?!眲⒙敻嬖V記者,“第一是多模態(tài)和多語言。站在未來通用人工智能發(fā)展的角度,認知智能大模型是核心基礎,基于此,語音、圖像、視頻等其他數據可以對齊到統(tǒng)一語義空間中,結合插件工具實現多模態(tài)系統(tǒng)呈現。第二是可信可解釋。這就需要保證海量數據的源頭質量、大模型本身能力及系統(tǒng)方案的不斷優(yōu)化迭代,加上國家出臺的監(jiān)管政策和法律法規(guī)護航。第三是向系統(tǒng)性創(chuàng)新方向發(fā)展?;趩吸c技術組合的軟硬一體化創(chuàng)新在AI(人工智能)領域已有產品、應用的先例,在大模型能力支持下,我們需要聯(lián)合多種優(yōu)勢技術進行系統(tǒng)性創(chuàng)新,并關注其所帶來的護城河效應。第四是軟硬件一體全國產化發(fā)展。目前,訊飛投入并深度參與到國產AI芯片軟件生態(tài)建設中,在訓練側和推理側已有一定的收獲和進展?!?/p>
推進數智融合
智能檢索、關鍵詞篩選、最新醫(yī)訊獲取……依靠大數據與人工智能帶來的便捷功能,用戶只需動動手指,就可輕松體驗這些服務。2023年10月,江蘇省泰州市大健康產業(yè)鏈標準云享站正式上線,以百萬量級標準數據為企業(yè)提供正版現行、實時更新、用戶體驗更加友好的信息服務支撐。
這是泰州推動數字化、智能化技術與標準深度融合的創(chuàng)新實踐??v觀泰州醫(yī)藥健康產業(yè),從線上到線下,從“實驗室”到“車間”,“智改數轉(智能化改造、數字化轉型)”的成果紛紛走向“生產線”。
走進泰州醫(yī)藥高新區(qū)(高港區(qū))的江蘇大同盟制藥有限公司小容量注射劑生產車間,全自動生產線有序作業(yè),藥品生產高效、精準、穩(wěn)定;揚子江藥業(yè)集團旗下生產工廠通過“機器換人”和信息系統(tǒng)集成管理等一系列“智改數轉”措施,使全流程生產更加智能化、數字化;江蘇龍鳳堂中藥有限公司形成了一整套從中藥材前期處理到提取的現代化解決方案,在中藥流程智能制造標準化建設領域打造了“智改數轉”的樣板。
泰州的實踐說明,當前,數據已成為醫(yī)藥健康產業(yè)的重要要素,數字技術也已成為生物醫(yī)藥創(chuàng)新發(fā)展的必要工具。數智融合,對賦能醫(yī)藥健康產業(yè)創(chuàng)新發(fā)展的作用不可或缺。
在“數據要素×科技創(chuàng)新”行動中,推進數智融合也是重要舉措之一。《“數據要素×”三年行動計劃(2024—2026年)》提出,以科學數據支撐技術創(chuàng)新,聚焦生物育種、新材料創(chuàng)制、藥物研發(fā)等領域,以數智融合加速技術創(chuàng)新和產業(yè)升級。
近年來,人工智能、區(qū)塊鏈、深度學習、物聯(lián)網等新一代數智技術的集成迭代與擴散,已滲透到研發(fā)設計、生產制造、客戶服務等各個環(huán)節(jié),對生產技術、生產方式帶來全角度、全方位、全鏈條的改造,全面提升產業(yè)的自動化、數字化和智能化水平,為推動數智融合應用、加快形成新質生產力提供了關鍵驅動力。
西北大學經濟管理學院教授鈔小靜認為,數據要素作為數字經濟時代以非物質形態(tài)被計算機設備存儲和處理的新型關鍵生產要素,具有非競爭性、低復制成本、非排他性、強外部性等技術和經濟特征,可以被不同主體重復利用,通過解構重組、匯聚融合等方式產生“數據+算法+算力”融合價值,為夯實數智融合內在形態(tài)、加快形成新質生產力提供了基礎性重要資源。
“一方面,數據要素與傳統(tǒng)生產要素的有機融合應用,豐富了數智融合的表現形態(tài),將數智融合的方式由地理空間轉向為數字空間?!扁n小靜說,“另一方面,數據要素在傳統(tǒng)生產要素的再配置、再組合中發(fā)揮‘媒介’作用,產生了新的要素加工模式,催生了數智融合新形態(tài)?!睏羁》?/p>
版權聲明:凡注明“來源:中國西藏網”或“中國西藏網文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須注明來源中國西藏網和署著作者名,否則將追究相關法律責任。