← 返回列表

一种用于建立单词翻译模型的训练数据采样方法

申请号: CN201710678325.9
申请人: 陈虎
申请日期: 2017年8月10日

摘要文本

详见官网: 。一种用于建立单词翻译模型的训练数据采样方法,包括:首先,在首轮采样中从原始数据针对所述单词随机采样目标数量第一比例的例句;将所述首轮采样中获取的例句贴上相应标签并且存储在标签数据池中;对所述标签数据池中的标签数据进行词嵌入预处理并且获取对应于所述单词的各个解释的各个类别的数据中心点;利用不同类别的中心点对原始数据进行启发式聚类;将所述首轮采样中获取的例句进行数据后处理并且将所述处理结果反馈用于下一轮的采样,如此循环直至总采样数达到所述目标采样数。

专利详细信息

项目 内容
专利名称 一种用于建立单词翻译模型的训练数据采样方法
专利类型 发明授权
申请号 CN201710678325.9
申请日 2017年8月10日
公告号 CN109388808B
公开日 2024年3月8日
IPC主分类号 G06F40/55
权利人 陈虎
发明人 陈虎; 尹文鹏
地址 上海市静安区柳营路717弄5号402室

专利主权项内容

1.一种用于建立单词翻译模型的训练数据采样方法,包括:首先,在首轮采样中从原始数据针对所述单词随机采样目标数量第一比例的例句;将所述首轮采样中获取的例句贴上相应标签并且存储在标签数据池中;对所述标签数据池中的标签数据进行词嵌入预处理并且获取对应于所述单词的各个解释的各个类别的数据中心点;利用不同类别的中心点对原始数据进行启发式聚类;将所述首轮采样中获取的例句进行数据后处理并且将所述处理结果反馈用于下一轮的采样,如此循环直至总采样数达到目标采样数,其中,所述数据后处理通过对首轮采样的数据进行统计得到每个类别的数据的中点,每个类别中已经贴好标签的数据以及归为每个类别的所有原始数据,在所述下一轮的采样中,采集到的数据的公式为:其中,c,k=0, 1, 2, …, N-1表示第k个类别贴标签数据的中点;|a-b|表示两个向量的距离;A,i=0, 1, 2, …, N-1表示启发式聚类归为第i个类的原始数据集;j=0, 1, 2, …, M-1表示启发式聚类归为第i个类的某条原始数据;c,i=0, 1, 2, …, M-1表示第i个类别已贴标签的采样数据。kiiii