← 返回列表

一种数据处理方法、装置和电子设备

申请号: CN201811496044.2
申请人: 北京搜狗科技发展有限公司
申请日期: 2018年12月7日

摘要文本

本发明实施例提供了一种数据处理方法、装置和电子设备,其中,所述方法包括:接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果;进而能够为用户提供准确的搜索结果。且相对于现有技术用户需要进行多次输入或分辨搜索信息对应的法律节点才能获取搜索结果而言,本发明实施例中用户无需分辨搜索信息的法律节点,且进行一次输入就可以获取对应的搜索结果,搜索效率高。。该数据由<马克数据网>整理

专利详细信息

项目 内容
专利名称 一种数据处理方法、装置和电子设备
专利类型 发明授权
申请号 CN201811496044.2
申请日 2018年12月7日
公告号 CN111291069B
公开日 2024年3月22日
IPC主分类号 G06F16/24
权利人 北京搜狗科技发展有限公司
发明人 沈炎军; 贺宇; 董国盛; 马超; 应蕾; 孟莹; 黄晓烽; 周泽南; 苏雪峰
地址 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间

专利主权项内容

1.一种数据处理方法,其特征在于,包括:接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果;所述的方法还包括训练所述深度语义匹配模型的步骤:收集多组训练数据,其中,一组训练数据包括一个历史搜索信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果;将所述多组训练数据输入至所述匹配模型中,得到各组训练数据对应的余弦距离,其中,匹配的历史搜索结果为正样本,其他历史搜索结果为负样本;依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整;所述依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整,包括:将所述各余弦距离代入所述交叉熵代价函数中;然后依据代入余弦距离后的交叉熵代价函数,对所述深度语义匹配模型的权值进行调整;其中,所述交叉熵代价函数的公式如下:其中,x包括所述正样本和所述负样本;是所述正样本和所述负样本的总数量;a是所述历史搜索信息与所述正样本/所述负样本的余弦距离;y是期望输出值(0或1),若所述x是正样本,所述y是1,若所述x是负样本,所述y是0;n所述的方法还包括建立所述数据库的步骤:采用网络爬虫获取指定领域的结构化数据,依据所述结构化数据建立所述数据库。