大语言模型与非遗“共舞”
宋锦既然起源于苏州,为什么叫宋锦?为什么会有宋锦到蜀锦的发展转变?缫丝使用梭子的方式与一般织布有何不同?近日,在《中国世界级非遗文化悦读系列》丛书发布会上,一款同步推出的“非物质文化遗产大语言模型”引人注目。在模型中输入上述问题,一个个翔实、生动的答案跃入眼帘。
南京农业大学信息管理学院王东波教授接受记者采访时表示,他带领团队联合南京大学“术语与翻译跨学科研究基地”推出的这款模型,致力于推动非遗文化的数字化保护,为非遗文化的保护与传播开辟新路径。
“非物质文化遗产是中华优秀传统文化的重要组成部分,我们希望通过打造一款非遗领域的人工智能大模型,促进中华优秀传统文化的国内外传播。”王东波介绍,目前的通用领域大模型虽然在语言能力与通用知识领域表现出色,但缺乏对特定领域知识的了解。通过专业领域的数据开展预训练,能够弥补通用大模型在非遗知识领域的匮乏。
“在非物质文化遗产领域,数据的独特性与复杂性是大模型构建的关键挑战。”王东波表示,为确保非遗大模型能够精准理解和运用文化遗产领域的独特知识,研究团队在数据收集阶段,从中国非物质文化遗产网的政策、资源、学术等五大板块获取并整理了海量数据,并利用学术文献数据库中的大量非遗相关期刊论文摘要,通过对网页内容的分类解析和论文摘要的整理,构建了一个内容丰富、预训练数据总字数超1868万字的数据集。
在王东波看来,高质量数据集的构建是非遗大语言模型获取相关领域专业知识的必要条件。为使模型能够更好地理解和响应非遗相关问题,研究团队通过对数据的量化分析和组织专家的深度参与,构建了面向非遗的知识实体标注方案,所完成的知识实体精标注语料库总字符数超176万。
经过长期的人工数据标注与校验,团队实现了非遗数据知识实体的精细标注。为进一步丰富训练数据,研究团队结合数据生成的特性,与南京大学术语与翻译跨学科研究基地的魏向清教授团队合作,依托超大型语言模型,融入了《中国世界级非遗文化悦读系列》丛书中的对话内容,对已有非遗文本数据进行转换与增强,构建了高质量的非遗知识对话数据。
依托南京农业大学高性能算力平台,研究团队训练出非遗领域基座大模型,又在非遗知识对话数据的基础上进一步构建了非遗对话大模型。
“非遗对话大模型可以实现非遗文化的智能化传播与知识普及,目前,这款模型有中英文两种语言模式。后期我们也将尝试引入其他语种,将不同地域的非遗文化融合,打破语言障碍,助力中国非遗文化走向世界。”王东波表示,团队希望通过非遗领域大语言模型,促进传统故事、技艺、习俗等内容的数字化、知识化、系统化保护与利用,建立非遗的长效保护体系,确保非遗的可持续发展。