热点在线丨中科院团队发布国际最大规模汉语同步多模态神经影像数据集

微信微博 QQ空间 MORE

关注河南热线

(资料图片)

神经影像实验数据采集流程。　中科院自动化所供图

中新网北京10月9日电 (记者孙自法)中国科学院自动化研究所(中科院自动化所)9日向媒体发布信息说，该所自然语言处理研究组历时近两年，采集处理完成迄今国际上规模最大、包含信息最丰富的汉语同步多模态神经影像数据集，并于近日正式对外发布。

该数据集覆盖了近万个汉语词汇，是当前国际上最大规模的用于脑语言处理机制研究的多模态同步神经影像数据集。其相关研究成果论文已在《自然》(Nature)旗下专业学术期刊《科学数据》(Scientific Data)发表。

据中科院自动化所自然语言处理研究组介绍，大脑在加工语言时，需要实时调动多个脑区的神经元进行协同工作。构建高时空分辨率的神经影像数据可以帮助人们更好地了解各个脑区以及脑区之间的协同合作，对于研究大脑的语言加工机制至关重要。

当前已有的开源数据主要针对英文采集，只包括单一模态的神经影像数据，如高空间分辨率的功能核磁共振(fMRI)或高时间分辨率的脑磁图(MEG)，并且大多使用1小时以内的实验材料，数据规模有限，无法借助数据需求量大的计算模型进行更全面、更深入的大脑语言加工机制探索。

为突破上述问题，该研究组历时近两年采集处理完成目前国际上规模最大、包含信息最丰富的汉语同步多模态神经影像数据集，针对12个被试收听约6个小时故事时的功能核磁共振(fMRI)、脑磁图(MEG)、每个被试的T1/T2加权结构像、扩散磁共振成像(diffusion MRI)和静息态核磁共振(resting MRI)数据采集整理而成。为了便于利用计算模型进行脑语言处理机制的研究，所有故事材料都由人工标注了句法结构树，计算了文本中每个词汇对应的音频时间点、词频以及多种不同字和词汇的向量。同时，所有测试指标均超越或可比于已有的同类数据集，具有充分的质量保证。

实验材料对应的标注信息。　中科院自动化所供图

中科院自动化所自然语言处理研究组表示，目前国际最大规模汉语同步多模态神经影像数据集的公开发布，可以为全方位研究大脑在真实场景下理解词汇、短语和句子时如何调动不同脑区以及不同脑区之间如何协同工作等科学问题提供重要支撑。

特别值得注意的是，该数据集覆盖了近万个汉语词汇，这不仅对于研究大脑理解汉语的认知机理具有重要意义，而且将在探索自然语言计算模型与人脑语言处理机制之间的关系，研究如何利用神经影像数据提升现有语言计算模型的性能，从而构建新一代受脑启发的神经语言模型等一系列工作中发挥显著作用。

来源：中国新闻网编辑：李钰

责任编辑：hN_0924

宁波首批市级田园综合体出炉美丽乡村品质不断提升
记者昨天从市农业农村局获悉，我市首批市级田园综合体试点单位余姚市横坎头村田园综合体和宁波滕头田园综合体已完成创建任务...
宁波“腾笼换鸟”组合拳催生发展新模式全面开展工业用地大排查
原先零产值的空闲厂房通过统一规划，已引进一家更加符合产业导向的优质企业，预计今年可新增产值2000万元。在宁海，梅林南路(...
慈溪靶向发力筑好青年创新人才“蓄水池” 为打造现代化滨海大都市北部智造名城蓄势赋能
由慈溪青年人才陶霖珊回乡创办的浙创科技有限公司成立5年来，致力于3D打印技术产品的研发落地，目前该公司已拥有300多家客户...
七台河：奋力打造冰雪经济新引擎开拓“冰雪+”转型发展新赛道
改革是解决问题的金钥匙，也是发展的助推器。36年前，七台河将主攻的大道速滑项目变为短道速滑项目，历经16年探索拼搏，七台...
深汕特别合作区全域规划奋力打造世界一流汽车城土地整备连创“深汕加速度”
深圳往东60公里，山海叠翠、蓝绿交织，一座以新能源汽车为基石的汽车城正在崛起。十年前，这里还是一个普通产业转移园，如今...