中國西藏網(wǎng) > 即時新聞 > 國內(nèi)

中科院團隊發(fā)布國際最大規(guī)模漢語同步多模態(tài)神經(jīng)影像數(shù)據(jù)集

發(fā)布時間:2022-10-10 11:19:00來源: 中國新聞網(wǎng)

  中新網(wǎng)北京10月9日電 (記者 孫自法)中國科學院自動化研究所(中科院自動化所)9日向媒體發(fā)布信息說,該所自然語言處理研究組歷時近兩年,采集處理完成迄今國際上規(guī)模最大、包含信息最豐富的漢語同步多模態(tài)神經(jīng)影像數(shù)據(jù)集,并于近日正式對外發(fā)布。

  該數(shù)據(jù)集覆蓋了近萬個漢語詞匯,是當前國際上最大規(guī)模的用于腦語言處理機制研究的多模態(tài)同步神經(jīng)影像數(shù)據(jù)集。其相關研究成果論文已在《自然》(Nature)旗下專業(yè)學術期刊《科學數(shù)據(jù)》(Scientific Data)發(fā)表。

  據(jù)中科院自動化所自然語言處理研究組介紹,大腦在加工語言時,需要實時調(diào)動多個腦區(qū)的神經(jīng)元進行協(xié)同工作。構建高時空分辨率的神經(jīng)影像數(shù)據(jù)可以幫助人們更好地了解各個腦區(qū)以及腦區(qū)之間的協(xié)同合作,對于研究大腦的語言加工機制至關重要。

  當前已有的開源數(shù)據(jù)主要針對英文采集,只包括單一模態(tài)的神經(jīng)影像數(shù)據(jù),如高空間分辨率的功能核磁共振(fMRI)或高時間分辨率的腦磁圖(MEG),并且大多使用1小時以內(nèi)的實驗材料,數(shù)據(jù)規(guī)模有限,無法借助數(shù)據(jù)需求量大的計算模型進行更全面、更深入的大腦語言加工機制探索。

  為突破上述問題,該研究組歷時近兩年采集處理完成目前國際上規(guī)模最大、包含信息最豐富的漢語同步多模態(tài)神經(jīng)影像數(shù)據(jù)集,針對12個被試收聽約6個小時故事時的功能核磁共振(fMRI)、腦磁圖(MEG)、每個被試的T1/T2加權結(jié)構像、擴散磁共振成像(diffusion MRI)和靜息態(tài)核磁共振(resting MRI)數(shù)據(jù)采集整理而成。為了便于利用計算模型進行腦語言處理機制的研究,所有故事材料都由人工標注了句法結(jié)構樹,計算了文本中每個詞匯對應的音頻時間點、詞頻以及多種不同字和詞匯的向量。同時,所有測試指標均超越或可比于已有的同類數(shù)據(jù)集,具有充分的質(zhì)量保證。

  中科院自動化所自然語言處理研究組表示,目前國際最大規(guī)模漢語同步多模態(tài)神經(jīng)影像數(shù)據(jù)集的公開發(fā)布,可以為全方位研究大腦在真實場景下理解詞匯、短語和句子時如何調(diào)動不同腦區(qū)以及不同腦區(qū)之間如何協(xié)同工作等科學問題提供重要支撐。

  特別值得注意的是,該數(shù)據(jù)集覆蓋了近萬個漢語詞匯,這不僅對于研究大腦理解漢語的認知機理具有重要意義,而且將在探索自然語言計算模型與人腦語言處理機制之間的關系,研究如何利用神經(jīng)影像數(shù)據(jù)提升現(xiàn)有語言計算模型的性能,從而構建新一代受腦啟發(fā)的神經(jīng)語言模型等一系列工作中發(fā)揮顯著作用。(完)

(責編:陳濛濛)

版權聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關法律責任。

长治县| 横峰县| 枣强县| 崇礼县| 连南| 牙克石市| 辽源市| 张家口市| 卢龙县| 株洲县| 昌都县| 乌兰县| 阿拉善盟| 广元市| 女性| 临泽县| 天祝| 新乡市| 鸡泽县| 监利县| 乃东县| 海原县| 锡林郭勒盟| 平遥县| 密云县| 锡林浩特市| 海口市| 铁岭市| 龙陵县| 夏邑县| 兴安盟| 永泰县| 腾冲县| 泰州市| 洪湖市| 陆良县| 马边| 开阳县| 湖口县| 平舆县|