一种网络在线话题大数据检测方法

申请号: CN201711489608.5

申请人: 天津科技大学

申请日期: 2017年12月30日

摘要文本

本发明涉及一种网络在线话题大数据检测方法，其主要技术特点：大数据网络文本在线爬取；提取文本特征和表达；使用Single‑Pass聚类算法，选取多个相似度因子，进行话题检测。本发明设计合理，其在现有Single‑Pass算法的基础上，通过分析文本特点，采用多相似度计算方法，通过赋予不同权重因子的取值，加权组合获得到文本的相似度，能够使用漏检率、误检率以及耗费函数值上均有所下降，聚类效果明显改善。

申请人信息

申请人:天津科技大学
申请人地址:300222 天津市河西区大沽南路1038号天津科技大学
发明人: 天津科技大学

专利详细信息

项目	内容
专利名称	一种网络在线话题大数据检测方法
专利类型	发明授权
申请号	CN201711489608.5
申请日	2017年12月30日
公告号	CN108197259B
公开日	2024年3月5日
IPC主分类号	G06F16/35
权利人	天津科技大学
发明人	马永军; 柴梦瑶; 刘洋
地址	天津市滨海新区经济技术开发区第十三大街9号

专利主权项内容

1.一种网络在线话题大数据检测方法，其特征在于包括以下步骤：步骤1、大数据网络文本在线爬取；步骤2、提取文本特征和表达；步骤3、使用Single-Pass聚类算法，选取多个相似度因子，进行话题检测；所述步骤3选取多个相似度因子包括：时间因子、地点因子和来源因子；所述时间因子为：式中，Sim(d, d)表示文档d和d的时间距离，t＝|t-t|，m则为自动设置的时间间隔；timeijijij所述地点因子为：式中，Simpi, pj)为两个地名的相似度，deep(p∩p)为地名p与地名p在地理树上距离根节点的公共深度，deep(p)为地名p距离根节点的深度，deep()为地名p距离根节点的深度；所述来源因子为：place(ijijiipjj其中，PR表示网站p的PR值，其中d为阻尼系数，a为判断链出站点是否为站外链接的比重系数，V为链出页面与网站p页面不是同一个站点的集合，C表示页面i全部链出页面的数量，V为链出页面与页面p属于同一个站点的集合，C表示页面j全部链出页面的数量。(p)1i2j。数据由马克数据整理

一种网络在线话题大数据检测方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

一种网络在线话题大数据检测方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种焊接管路的辅助装置

一种导轨滑块刚性疲劳测试装置及其测试方法

X射线管及其阴极冷却装置、管芯组件

双歧杆菌分离培养方法

一种用于电子级硫酸生产废液的回收处理装置

自动化全内置超导磁铁磁场强度测量装置及测量方法

热门技术领域

快速入口

专利技术资料