← 返回列表

基于矛盾纠纷数据的新型实体关系联合抽取算法

申请号: CN202410119013.4
申请人: 数据空间研究院
申请日期: 2024/1/29

摘要文本

本发明公布了基于矛盾纠纷数据的新型实体关系联合抽取算法,该算法包括以下步骤:S1,通过BERT模型对句子进行编码,以得到词向量;S2,以句子中的单词作为节点构建依存关系树,并确定依存关系树中每个边的权重;S3,基于DERNN和GAT对步骤S2中的节点进行编码;S4,将步骤S3中关于节点的两种编码表示加权融合,确定实体预测模型的总目标函数,本发明的有益效果是,将实体和关系的抽取任务整合在一个模型中,可以更好地捕捉它们之间的关联;通过对实体跨度的全面建模,尤其是考虑了连续单词,能够准确地捕捉实体在文本中的具体位置和范围;整合了BERT的句子表示、依存树构建、DERNN编码和GAT图注意力网络,从不同角度捕捉了输入文本的信息。

专利详细信息

项目 内容
专利名称 基于矛盾纠纷数据的新型实体关系联合抽取算法
专利类型 发明申请
申请号 CN202410119013.4
申请日 2024/1/29
公告号 CN117648980A
公开日 2024/3/5
IPC主分类号 G06N5/025
权利人 数据空间研究院
发明人 马韵洁; 王胡健; 王晓思; 王佐成; 毕晨曦; 王飞; 王晴; 葛鹏
地址 安徽省合肥市高新区柏堰科技园创新大道288号工投高新智谷B区

专利主权项内容

1.基于矛盾纠纷数据的新型实体关系联合抽取算法,其特征在于,该算法包括以下步骤:S1,通过BERT模型对句子进行编码,以得到词向量,具体为:其中,为句子中的所有单词,/>为单词的词向量,d为向量的维度数;S2,以句子中的单词作为节点构建依存关系树,并确定依存关系树中每个边的权重;S3,基于DERNN和GAT对步骤S2中的节点进行编码,分别得到和/>;S4,将步骤S3中关于节点的两种编码表示加权融合得到词节点的综合表示,分别利用实体分类器和关系分类器预测文本中单个或连续单词为实体或关系的概率;S5,计算步骤S4中实体分类器和关系分类器的损失函数,确定实体预测模型的总目标损失函数。