一种文件相似性检测方法、装置、电子设备及存储介质
摘要文本
本发明实施例公开一种文件相似性检测方法、装置、电子设备及存储介质,涉及信息安全技术领域,能够对原文件及经过各种类型和范围修改的文件之间的相似性进行准确判断。所述方法包括:对至少两个被检测文件分别提取有效信息,其中,所述被检测文件为预设文字编辑软件生成的文件,所述有效信息为所述被检测文件中具有表达含义的文件内容;按照预设格式转换规则分别对提取出的有效信息进行格式转换,从而形成与所述被检测文件对应的待对比信息;对所述待对比信息进行分片对比,以确定所述至少两个被检测文件的相似度。本发明可用于文件相似性检测。 来源:百度马 克 数据网
申请人信息
- 申请人:北京安天网络安全技术有限公司
- 申请人地址:100195 北京市海淀区玉泉山闵庄路3号清华科技园玉泉慧谷1号楼
- 发明人: 北京安天网络安全技术有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种文件相似性检测方法、装置、电子设备及存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN201811653701.X |
| 申请日 | 2018年12月29日 |
| 公告号 | CN110874526B |
| 公开日 | 2024年3月1日 |
| IPC主分类号 | G06F40/194 |
| 权利人 | 北京安天网络安全技术有限公司 |
| 发明人 | 王沛然 |
| 地址 | 北京市海淀区玉泉山闵庄路3号清华科技园玉泉慧谷1号楼 |
专利主权项内容
1.一种文件相似性检测方法,其特征在于,包括:对至少两个被检测文件分别提取有效信息,其中,所述被检测文件为预设文字编辑软件生成的文件,所述有效信息为所述被检测文件中具有表达含义的文件内容;按照预设格式转换规则分别对提取出的有效信息进行格式转换,从而形成与所述被检测文件对应的待对比信息;对所述待对比信息进行分片后采用滑动窗口的方式对比,以确定所述至少两个被检测文件的相似度;其中,根据如下公式确定所述至少两个被检测文件的相似度:Z=AVG(Z1+Z2),其中Z为至少两个被检测文件的相似度,AVG代表求算术平均数的函数,Z1为第一相似度,Z2为第二相似度;Z1=X*n/(X*n+Y)*100%,其中n为预设的一个分片的字节数;X为相同分片数,当第一待对比信息和第二待对比信息采用滑动窗口的方式进行逐分片对比时,如果两个分片相同,则X加1,如果两个分片不同,则记录第二待对比信息此时的第一位置;Y为第二待对比信息向后挪动的字节数,也即当两个分片不同时,第一待对比信息用来对比的分片不变,第二待对比信息用来对比的分片向后挪动1个字节后继续与第一待对比信息的分片对比,直到找到相同的分片;然后从第一待对比信息的后一个分片继续向后对比,而第二待对比信息从第一位置开始对比,直到结束;111111Z2=X*n/(X*n+Y)*100%,其中n为预设的一个分片的字节数;X为相同分片数,当第二待对比信息和第一待对比信息采用滑动窗口的方式进行逐分片对比时,如果两个分片相同,则X加1,如果两个分片不同,则记录第一待对比信息此时的第一位置;Y为第一待对比信息向后挪动的字节数,也即当两个分片不同时,第二待对比信息用来对比的分片不变,第一待对比信息用来对比的分片向后挪动1个字节后继续与第二待对比信息的分片对比,直到找到相同的分片;然后从第二待对比信息的后一个分片继续向后对比,而第一待对比信息从第一位置开始对比,直到结束。222222