← 返回列表

基于关键词异构图和语义匹配的金融文本摘要方法

申请号: CN202410180271.3
申请人: 西南石油大学
申请日期: 2024/2/18

摘要文本

本发明涉及基于关键词异构图和语义匹配的金融文本摘要方法,属于自然语言处理领域;它解决了现有抽取式单文档摘要模型忽略关键词与文档之间的依赖关系和摘要与文档原文之间的语义匹配度的问题。其技术方案是:提取文档中的多级关键词,构建包含多粒度节点和多级关键词的关键词异构图,采用图注意力机制更新节点特征向量,通过组合损失函数进行模型优化。本发明具有以下有益效果:关键词异构图学习文档的局部和全局语义信息,提高了关键词异构图捕捉重要句子的准确率;采用图注意力机制更新节点特征向量,有助于学习句子之间的语义关系;组合损失函数使得模型更加关注摘要与文档原文的语义相似度,提高生成的摘要与文档原文的语义一致性。

专利详细信息

项目 内容
专利名称 基于关键词异构图和语义匹配的金融文本摘要方法
专利类型 发明申请
申请号 CN202410180271.3
申请日 2024/2/18
公告号 CN117725928A
公开日 2024/3/19
IPC主分类号 G06F40/289
权利人 西南石油大学
发明人 杨先凤; 杨薇
地址 四川省成都市新都区新都大道8号

专利主权项内容

1.基于关键词异构图和语义匹配的金融文本摘要方法,其特征在于:所述方法包括以下步骤:S100、使用爬虫技术获取金融文本数据,构建用于训练抽取式单文档摘要模型的数据集;对用于训练抽取式单文档摘要模型的数据集进行预处理和标注;S200、为充分关注关键词与文档之间的依赖关系,提取文档中的多级关键词,包含句子级关键词和文档级关键词;采用TF-IDF方法提取句子级关键词,采用基于BERT的序列标注器提取文档级关键词;S300、构建关键词异构图;给定一个异构图G={V, E},V代表节点集,包含三种粒度语义节点,分别是词语节点、句子节点和文档节点;E代表节点之间的边集,包含词语与句子之间的边和词语与文档之间的边;初始化关键词异构图,需要初始化节点特征向量和明确节点之间的关系重要性;S400、为实现局部信息聚合和全局信息传递,更新关键词异构图中的节点特征向量;对于一个给定的节点特征向量,图注意力机制计算/>与邻居节点特征向量/>之间的注意力权重/>;多头注意力机制利用/>和/>生成聚合的节点特征向量/>;为了让模型能够学习到更丰富的特征表示,将/>依次送入残差连接层和位置前馈层获得新的节点特征向量/>;通过上述的节点特征向量更新过程获得关键词异构图中词语、句子和文档节点的最终特征向量、/>和/>;S500、为提高生成的摘要与文档原文之间的语义一致性,对句子二分类交叉熵损失函数Loss_BCE和语义相似度损失函数Loss_CS进行求和,生成组合损失函数Loss;模型通过降低组合损失函数来不断优化,生成摘要。