基于大模型的古汉语文本资讯抽取系统设计与实现
1. 系统概述
1.1. 项目背景与意义
古汉语文献,如经史子集、地方志、墓志铭、医案等,是中华文明的核心载体。这些文献数量浩如烟海,但其信息多以非结构化的自然语言形式存在,给学术研究、文化传承和知识发现带来了巨大挑战。传统的人工标注和整理方式效率低下,且严重依赖专家的个人学识。
近年来,大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展,其在上下文理解、泛化能力和少样本学习方面的优势,为古汉语信息处理提供了新的范式。本系统旨在利用大模型的能力,构建一个自动化、智能化的古汉语资讯抽取(Information Extraction, IE)平台。用户可以通过定义自定义本体(Ontology),从上传的古文文本中精准地抽取出结构化的知识,如人物、地点、官职、事件等,并最终形成知识图谱、表格等多种形式的输出,极大地提升古籍数字化与知识化的效率。
1.2. 系统核心目标
- 多功能抽取:支持基于用户自定义本体的命名实体识别(NER)和事件抽取(EE)。
- 大模型驱动:以大型语言模型(如 GPT、ChatGLM、ERNIE、古文专用模型等)为核心推理引擎,实现高准确率和泛化能力。
- 用户友好:提供图形化界面(Web)用于上传文本、管理本体、查看和导出结果。
- 结构化输出:生成标

订阅专栏 解锁全文

2132

被折叠的 条评论
为什么被折叠?



