
随着科技和产业变革的推进,大语言模型和人工智能技术的快速发展,语料库的建设规模和应用范围也得到了显著的提升。针对此,、语委及网信办联合发布了《关于加强数字中文建设,推进语言文字信息化发展的意见》。该《意见》指出,到2027年,数字中文建设行动将取得重要成效,语言文字数据要素的价值将得到充分释放。基本形成主导、部门协同、社会参与、共建共享的语言文字信息化工作机制,建成关键语料库及一系列语言资源信息库。也将进一步推动标准化建设,以适应信息技术发展的需求。针对此情况,本文将对“关键语料库”进行解读。
什么是“关键语料库”?简而言之,它是基于大规模中文语料库的高质量语言文字语料库的建设工程。《意见》提出了推动基础性语言资源建设的目标,重点支持大规模中文语料库以及特定领域的语料库建设,如手语盲文语料库和行业领域语料库等。在的新闻发布会上,语言文字信息管理司的相关负责人明确指出,语料库作为自然语言处理和大语言模型的技术支撑点,已成为经济社会信息化建设的重要基础要素。为了更好地发挥语料库的价值和功能,近年来不断推动了多种形式的语料库建设与应用项目。例如,“思想文化术语库”的建立为文化传承做出了巨大贡献。在此基础上,“AI小语”这一智能化学习工具已正式上线,标志着我们在智能化学习领域的进一步探索和实践。《信息技术中文编码字符集》等规范的制定,也为信息技术领域的语言处理提供了坚实的基础。
那么,“关键语料库”如何建设呢?需要找到语言文字与信息技术的结合点,推动两者的深度融合发展。在信息技术深入融入经济社会各领域的大背景下,语言资源的数字化显得尤为重要。为此,《意见》提出了一系列针对性的举措。比如研制相关规范标准,从语言资源建设、管理、应用到共享等各个环节进行标准化研究;同时加强语言文字与人工智能技术的融合研究与应用实践;开展语言技能培训和人才培养等。还要加强高校与企业之间的合作与交流,共同推动行业标准和规范的制定与实施。在人才培养方面,鼓励高校增设交叉学科方向和专业课程,培养具备语言智能和计算语言学技能的新型人才。从而确保在未来的技术革新中占据领先地位。同时强调行业合作与协同发展的重要性。“关键语料库”的建设是一个系统工程需要各方的共同努力和协作才能取得实效。今年是落实《教育强国建设规划纲要(XXXX-XXXX)》的关键之年我们将把握全局高度加快试点先行进度激发协同创新力度在落实重点任务上下功夫见实效。”的新闻发布会上发出了明确而坚定的声音也让我们看到了对于未来数字化中文建设的无限期待与信心满满。
