← 返回列表

文本压缩的方法和装置

申请号: CN201710984893.1
申请人: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
申请日期: 2017年10月20日

摘要文本

本发明实施例提供一种文本压缩的方法和装置,能够针对现有技术中占用空间大、传输速度慢等问题,利用海量文本数据之间信息的冗余关系和大数据处理技术生成的高频编码库,以实现海量文本的高效存储和传输。该方法包括:为源文本生成类别标签;利用所述类别标签查找高频编码库中相应的类别编码库,所述高频编码库是指以高频文本块的编码数据形成的编码库,根据高频文本块所属类别的不同分为一个或多个类别编码库;利用所述类别编码库中的编码数据对所述源文本进行编码序列化,得到压缩后文本。

专利详细信息

项目 内容
专利名称 文本压缩的方法和装置
专利类型 发明授权
申请号 CN201710984893.1
申请日 2017年10月20日
公告号 CN109697277B
公开日 2024年2月13日
IPC主分类号 G06F40/146
权利人 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
发明人 赵辉; 杨丽敏; 刘诏; 薛韬
地址 北京市海淀区杏石口路65号西杉创意园四区11号楼东段1-4层西段1-4层; 北京市大兴区北京经济技术开发区科创十一街18号C座2层201室

专利主权项内容

1.一种文本压缩的方法,其特征在于,包括:确定编码需求,通过对应的编码算法设置高频编码库,包括:将历史文本数据按照类别不同进行分类;检索各类别中历史文本数据的高频文本块,所述高频文本块是指出现的频率或次数大于预设频率或次数阈值的文本块;利用编码算法对所述高频文本块进行编码,生成编码数据;将所述高频文本块与对应的所述编码数据的对应关系保存至按类别进行维度区分的高频编码库中;为源文本生成类别标签;利用所述类别标签查找高频编码库中相应的类别编码库,所述高频编码库是指以高频文本块的编码数据形成的编码库,根据高频文本块所属类别的不同分为一个或多个类别编码库;利用所述类别编码库中的编码数据对所述源文本进行编码序列化,得到压缩后文本。