
随着新一轮科技与产业的加速推进,大语言模型和人工智能技术的突飞猛进,对语料库的建设规模和应用范围产生了深远影响。为了响应这一趋势,语委和网信办联合发布了《关于加强数字中文建设,推动语言文字信息化发展的指导意见》。
这份《意见》明确了到2027年的发展目标,数字中文建设行动将取得显著成效,释放出语言文字数据资源的巨大价值。为实现这一目标,各部门、社会将共同参与,形成共建共享的语言文字信息化工作机制。其中包括建立语言文字大数据中心,打造关键语料库以及战略语言资源库。该《意见》强调基础语言资源建设的重要性,并提倡实施关键语料库的共建共享计划。
那么,何为“关键语料库”呢?
据语言文字信息管理司的相关负责人介绍,语料库是自然语言处理、大语言模型和人工智能技术的核心基础。而关键语料库则主要包括大规模中文语料库、高质量语言文字语料库、手语盲文语料库、行业领域语料库以及语言监测动态语料库等。这些语料库的建设和应用将极大地推动经济社会的信息化、数字化和智能化发展。
以文化传承领域为例,已经建立了思想文化术语库、精品字库、甲骨文数据库等,其中思想文化术语库包含了丰富的文化精髓,如传统文化、人文精神、思维方式、价值观念等。还提到了智能化学习工具“AI小语”,这是一个以思想文化术语库为基础的高交互智能平台,对于优秀传统文化的传承和传播具有非常重要的意义。
那么,如何建设“关键语料库”呢?
该负责人进一步指出,需要深入推动语言文字与信息技术的融合。为此,要开展语言资源的研究工作,推进语言资源建设、管理、应用、共享标准的研究,并推动相关规范标准的制定和修订工作。要加强与相关部门单位的合作,共同推进已有语言文字信息化相关规范标准的更新。
在人才培养方面,要支持高校增设语言智能、计算语言学等交叉学科方向,并鼓励企业开展技能培训。要从全局出发,加快试点工作的推进,加大协同创新的力度,切实落实重点任务。
《关于加强数字中文建设,推动语言文字信息化发展的指导意见》的发布,为未来语言文字信息化发展指明了方向。在数字化、智能化的时代背景下,关键语料库的建设必将成为推动语言文字信息化发展的重要力量。杨洁报道于中青报中青网。
