← 返回列表

样本标签生成方法、装置、计算机设备和存储介质

申请号: CN202311224046.7
申请人: 书行科技(北京)有限公司
申请日期: 2023/9/21

摘要文本

本申请实施例公开了一种样本标签生成方法、装置、计算机设备和存储介质,通过获取查询文本样本和查询文本样本的查询结果内容;根据预设的内容量与交互时长阈值之间的映射关系,确定查询结果内容的内容量对应的目标交互时长阈值;获取查询结果内容的用户交互时长,并根据用户交互时长与目标交互时长阈值的大小关系确定查询结果内容的第一样本标签;根据查询文本样本与查询结果内容的相关度,确定查询结果内容的第二样本标签;基于查询结果内容的第一样本标签和第二样本标签,生成查询结果内容和查询文本样本构成的训练样本对的样本标签。可以实现自动生成样本标签,减少标签标注的人工成本,且结合后验行为信息和相关度可以提高样本标签的准确性。

专利详细信息

项目 内容
专利名称 样本标签生成方法、装置、计算机设备和存储介质
专利类型 发明申请
申请号 CN202311224046.7
申请日 2023/9/21
公告号 CN117725273A
公开日 2024/3/19
IPC主分类号 G06F16/9032
权利人 书行科技(北京)有限公司
发明人 李浩
地址 北京市朝阳区安定路5号院5号楼18层01单元

专利主权项内容

1.一种样本标签生成方法,其特征在于,包括:获取查询文本样本,和所述查询文本样本的查询结果内容;根据预设的内容量与交互时长阈值之间的映射关系,确定所述查询结果内容的内容量对应的目标交互时长阈值;获取所述查询结果内容的用户交互时长,并根据所述用户交互时长与所述目标交互时长阈值的大小关系确定所述查询结果内容的第一样本标签;根据所述查询文本样本与所述查询结果内容的相关度,确定所述查询结果内容的第二样本标签;基于所述查询结果内容的第一样本标签和第二样本标签,生成所述查询结果内容和所述查询文本样本构成的训练样本对的样本标签。