← 返回列表
一种网络在线话题大数据检测方法
摘要文本
本发明涉及一种网络在线话题大数据检测方法,其主要技术特点:大数据网络文本在线爬取;提取文本特征和表达;使用Single‑Pass聚类算法,选取多个相似度因子,进行话题检测。本发明设计合理,其在现有Single‑Pass算法的基础上,通过分析文本特点,采用多相似度计算方法,通过赋予不同权重因子的取值,加权组合获得到文本的相似度,能够使用漏检率、误检率以及耗费函数值上均有所下降,聚类效果明显改善。
申请人信息
- 申请人:天津科技大学
- 申请人地址:300222 天津市河西区大沽南路1038号天津科技大学
- 发明人: 天津科技大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种网络在线话题大数据检测方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN201711489608.5 |
| 申请日 | 2017年12月30日 |
| 公告号 | CN108197259B |
| 公开日 | 2024年3月5日 |
| IPC主分类号 | G06F16/35 |
| 权利人 | 天津科技大学 |
| 发明人 | 马永军; 柴梦瑶; 刘洋 |
| 地址 | 天津市滨海新区经济技术开发区第十三大街9号 |
专利主权项内容
1.一种网络在线话题大数据检测方法,其特征在于包括以下步骤:步骤1、大数据网络文本在线爬取;步骤2、提取文本特征和表达;步骤3、使用Single-Pass聚类算法,选取多个相似度因子,进行话题检测;所述步骤3选取多个相似度因子包括:时间因子、地点因子和来源因子;所述时间因子为:式中,Sim(d, d)表示文档d和d的时间距离,t=|t-t|,m则为自动设置的时间间隔;timeijijij所述地点因子为:式中,Simpi, pj)为两个地名的相似度,deep(p∩p)为地名p与地名p在地理树上距离根节点的公共深度,deep(p)为地名p距离根节点的深度,deep()为地名p距离根节点的深度;所述来源因子为:place(ijijiipjj其中,PR表示网站p的PR值,其中d为阻尼系数,a为判断链出站点是否为站外链接的比重系数,V为链出页面与网站p页面不是同一个站点的集合,C表示页面i全部链出页面的数量,V为链出页面与页面p属于同一个站点的集合,C表示页面j全部链出页面的数量。(p)1i2j。数据由马 克 数 据整理