大语言模型与非遗“共舞”

2024-11-04 22:47:35 来源：科技日报作者：编辑：gb012

宋锦既然起源于苏州，为什么叫宋锦?为什么会有宋锦到蜀锦的发展转变?缫丝使用梭子的方式与一般织布有何不同?近日，在《中国世界级非遗文化悦读系列》丛书发布会上，一款同步推出的“非物质文化遗产大语言模型”引人注目。在模型中输入上述问题，一个个翔实、生动的答案跃入眼帘。

南京农业大学信息管理学院王东波教授接受记者采访时表示，他带领团队联合南京大学“术语与翻译跨学科研究基地”推出的这款模型，致力于推动非遗文化的数字化保护，为非遗文化的保护与传播开辟新路径。

“非物质文化遗产是中华优秀传统文化的重要组成部分，我们希望通过打造一款非遗领域的人工智能大模型，促进中华优秀传统文化的国内外传播。”王东波介绍，目前的通用领域大模型虽然在语言能力与通用知识领域表现出色，但缺乏对特定领域知识的了解。通过专业领域的数据开展预训练，能够弥补通用大模型在非遗知识领域的匮乏。

“在非物质文化遗产领域，数据的独特性与复杂性是大模型构建的关键挑战。”王东波表示，为确保非遗大模型能够精准理解和运用文化遗产领域的独特知识，研究团队在数据收集阶段，从中国非物质文化遗产网的政策、资源、学术等五大板块获取并整理了海量数据，并利用学术文献数据库中的大量非遗相关期刊论文摘要，通过对网页内容的分类解析和论文摘要的整理，构建了一个内容丰富、预训练数据总字数超1868万字的数据集。

在王东波看来，高质量数据集的构建是非遗大语言模型获取相关领域专业知识的必要条件。为使模型能够更好地理解和响应非遗相关问题，研究团队通过对数据的量化分析和组织专家的深度参与，构建了面向非遗的知识实体标注方案，所完成的知识实体精标注语料库总字符数超176万。

经过长期的人工数据标注与校验，团队实现了非遗数据知识实体的精细标注。为进一步丰富训练数据，研究团队结合数据生成的特性，与南京大学术语与翻译跨学科研究基地的魏向清教授团队合作，依托超大型语言模型，融入了《中国世界级非遗文化悦读系列》丛书中的对话内容，对已有非遗文本数据进行转换与增强，构建了高质量的非遗知识对话数据。

依托南京农业大学高性能算力平台，研究团队训练出非遗领域基座大模型，又在非遗知识对话数据的基础上进一步构建了非遗对话大模型。

“非遗对话大模型可以实现非遗文化的智能化传播与知识普及，目前，这款模型有中英文两种语言模式。后期我们也将尝试引入其他语种，将不同地域的非遗文化融合，打破语言障碍，助力中国非遗文化走向世界。”王东波表示，团队希望通过非遗领域大语言模型，促进传统故事、技艺、习俗等内容的数字化、知识化、系统化保护与利用，建立非遗的长效保护体系，确保非遗的可持续发展。

最近更新

北京广播在线版权与免责声明：

					1、北京广播在线所有内容的版权均属于作者或页面内声明的版权人。未经北京广播在线的书面许可，
					任何其他个人或组织均不得以任何形式将北京广播在线的各项资源转载、复制、编辑或发布使用于其他任何场合；不得把其中任何形式的资讯散发给其他方，
					不可把这些信息在其他的服务器或文档中作镜像复制或保存；不得修改或再使用北京广播在线的任何资源。若有意转载本站信息资料，
					必需取得北京广播在线书面授权。否则将追究其法律责任。

					2、已经本网授权使用作品的，应在授权范围内使用，并注明“来源：北京广播在线”。违反上述声明者，本网将追究其相关法律责任。

					3、凡本网注明“来源：XXX（非北京广播在线）”的作品，均转载自其它媒体，转载目的在于传递更多信息，
					并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件，意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布，
					可与本网联系，本网视情况可立即将其撤除。
					

图片欣赏

频道推荐

旅游

重磅来袭！“民生-京

“配方公开”一周年后

品读吴越文化厚植文

“旅游扶贫尧山在行