← 返回列表
不平衡小样本下多层级标签分类判别方法及装置
摘要文本
本发明公开了一种不平衡小样本下多层级标签分类判别方法及装置,涉及文本分类技术领域,方法包括:获取样本数据集;统计样本数据集在多层级标签的每级标签下的样本数,对每级标签分别设置样本数阈值;将样本数小于等于样本数阈值的每级标签下的样本数据作为第一数据集,将其余标签下的样本数据作为第二数据集;通过关键词库对第一数据集进行分类,得到第一预测标签,通过分类模型对第二数据集进行分类,得到第二预测标签;对第一预测标签和第二预测标签进行融合处理;按照从上级标签到下级标签的顺序,依次预测每个食物名称对应的多层级标签。本发明有效的提高了机器学习的F1值,大大降低了维护成本。
申请人信息
- 申请人:北京健康有益科技有限公司
- 申请人地址:100102 北京市朝阳区阜通东大街6号院3号楼10层11013
- 发明人: 北京健康有益科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 不平衡小样本下多层级标签分类判别方法及装置 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311759269.3 |
| 申请日 | 2023/12/20 |
| 公告号 | CN117708330A |
| 公开日 | 2024/3/15 |
| IPC主分类号 | G06F16/35 |
| 权利人 | 北京健康有益科技有限公司 |
| 发明人 | 李宇欣; 段兴涛 |
| 地址 | 北京市朝阳区阜通东大街6号院3号楼10层11013 |
专利主权项内容
1.一种不平衡小样本下多层级标签分类判别方法,其特征在于,包括:获取样本数据集,所述样本数据集包括作为输入样本的食物名称和作为输出样本的多层级标签;统计所述样本数据集在多层级标签的每级标签下的样本数,对每级标签分别设置样本数阈值;将样本数小于等于样本数阈值的每级标签下的样本数据作为第一数据集,将其余标签下的样本数据作为第二数据集;通过关键词库对所述第一数据集进行分类,得到第一预测标签,通过分类模型对所述第二数据集进行分类,得到第二预测标签;对第一预测标签和第二预测标签进行融合处理,将融合处理后的标签作为最终预测出的当前标签;根据上述步骤,按照从上级标签到下级标签的顺序,依次预测每个食物名称对应的多层级标签。 数据由马 克 团 队整理