百科知识

语料库是用来干嘛的

语料库是用来干嘛的

随着新一轮科技和产业变革的推动,大语言模型和人工智能技术的快速发展,促使语料库建设规模和应用范围经历了显著的扩展和完善。、语委和网信办最近联合印发了《关于加强数字中文建设,推进语言文字信息化发展的意见》。这一重要文件旨在到2027年,取得数字中文建设行动的重大成效,并释放语言文字在经济社会发展中的数据要素价值。

关于关键语料库的问题,这一计划的核心是推动基础性语言资源建设,并重点支持大规模中文语料库以及高质量语言文字语料库的建设。语言文字信息管理司的相关负责人指出,语料库是自然语言处理、大语言模型和人工智能技术创新应用的重要支撑。目前,已经建设了多个具有文化特色的语料库,如思想文化术语库等,它们为语言处理和智能化发展提供了宝贵的基础资源。

对于如何建设关键语料库,该负责人强调,需要推动语言文字与信息技术的深度融合。语委已经发布了一系列关于信息技术中文编码字符集的规范标准,为人工智能时代的应用创新奠定了基础。面向未来,还需要开展语言资源建设、管理、应用、共享标准的研究,并加强已有规范的宣传推广。

为了支持语料库的建设和应用,语言文字信息管理司还积极推动高校增设语言智能、计算语言学等交叉学科方向,并鼓励企业开展相关技能培训。今年作为落实《教育强国建设规划纲要(2024-2035年)》的关键之年,语言文字信息化发展将加快试点先行进度,激发协同创新力度,确保在重点任务上取得实效。

据了解,、语委已经通过开发、集成汇聚和动态更新等方式,与高校、企业、科研院所等合作建设了多项大规模高质量语料库。这些语料库已经广泛应用于经济社会发展的关键领域,为推动我国语言文字信息化发展做出了积极贡献。


语料库是用来干嘛的

你可能也会喜欢...