一种用于建立单词翻译模型的训练数据采样方法

申请号: CN201710678325.9

申请人: 陈虎

申请日期: 2017年8月10日

摘要文本

详见官网：。一种用于建立单词翻译模型的训练数据采样方法，包括：首先，在首轮采样中从原始数据针对所述单词随机采样目标数量第一比例的例句；将所述首轮采样中获取的例句贴上相应标签并且存储在标签数据池中；对所述标签数据池中的标签数据进行词嵌入预处理并且获取对应于所述单词的各个解释的各个类别的数据中心点；利用不同类别的中心点对原始数据进行启发式聚类；将所述首轮采样中获取的例句进行数据后处理并且将所述处理结果反馈用于下一轮的采样，如此循环直至总采样数达到所述目标采样数。

申请人信息

申请人:陈虎
申请人地址:201804 上海市静安区柳营路717弄5号402室
发明人: 陈虎

专利详细信息

项目	内容
专利名称	一种用于建立单词翻译模型的训练数据采样方法
专利类型	发明授权
申请号	CN201710678325.9
申请日	2017年8月10日
公告号	CN109388808B
公开日	2024年3月8日
IPC主分类号	G06F40/55
权利人	陈虎
发明人	陈虎; 尹文鹏
地址	上海市静安区柳营路717弄5号402室

专利主权项内容

1.一种用于建立单词翻译模型的训练数据采样方法，包括：首先，在首轮采样中从原始数据针对所述单词随机采样目标数量第一比例的例句；将所述首轮采样中获取的例句贴上相应标签并且存储在标签数据池中；对所述标签数据池中的标签数据进行词嵌入预处理并且获取对应于所述单词的各个解释的各个类别的数据中心点；利用不同类别的中心点对原始数据进行启发式聚类；将所述首轮采样中获取的例句进行数据后处理并且将所述处理结果反馈用于下一轮的采样，如此循环直至总采样数达到目标采样数，其中，所述数据后处理通过对首轮采样的数据进行统计得到每个类别的数据的中点，每个类别中已经贴好标签的数据以及归为每个类别的所有原始数据，在所述下一轮的采样中，采集到的数据的公式为：其中，c，k＝0, 1, 2, …, N-1表示第k个类别贴标签数据的中点；|a-b|表示两个向量的距离；A，i＝0, 1, 2, …, N-1表示启发式聚类归为第i个类的原始数据集；j＝0, 1, 2, …, M-1表示启发式聚类归为第i个类的某条原始数据；c，i＝0, 1, 2, …, M-1表示第i个类别已贴标签的采样数据。kiiii

一种用于建立单词翻译模型的训练数据采样方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

一种用于建立单词翻译模型的训练数据采样方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种焊接管路的辅助装置

一种导轨滑块刚性疲劳测试装置及其测试方法

X射线管及其阴极冷却装置、管芯组件

双歧杆菌分离培养方法

一种用于电子级硫酸生产废液的回收处理装置

自动化全内置超导磁铁磁场强度测量装置及测量方法

热门技术领域

快速入口

专利技术资料