首页 > 乐器声学 专利正文
不受支持术语的语音到文本转换的制作方法

时间:2022-02-24 阅读: 作者:专利查询

不受支持术语的语音到文本转换的制作方法

1.本发明涉及一种用于尤其化工业术语的语音到文本转换的计算机实施方法。
现有技术
2.在化学实验室中,因为存在各种源于物质和设备的危险,故适用许多规则以在那里保证安全工作。因此,根据实验室的类型、在那里进行的活动和所用物质,尤其可能存在以下安全规章:应当穿戴个人防护装备,其除了实验室外套外还可包括防护眼镜或防护面罩和防护手套。通常,不允许携带和食用食物和饮料,并且为了避免污染,包括办公桌、手册、纸质产品文档、计算机工作站和互联网入口的办公区与实验室工作区被相互空间分隔。空间分隔可以规定,仅通过安全门才能在办公区和实验室区之间转换。也可以规定在离开实验室区域时脱掉安全服。
3.安全规则有时会使工作过程变得相当困难:如果只能在办公区使用具有互联网访问和/或数据库访问的计算机,则必须为了每个操作步骤而脱下安全服,然后在重新进入实验室时再马上穿上。即使实验室区域内有带有键盘和互联网接口的计算机可用,但通常不能戴手套操作键盘。必须脱下手套并在必要时丢弃。在完成利用计算机的工作后,必须重新戴上手套才能继续进行实验室工作。
4.个别情况下存在具有例如呈大触摸屏形式的大尺寸键盘的实验室设备,以方便戴手套输入。但这种特殊硬件是昂贵的,并且并非所有的实验室设备均适用。尤其是,标准电脑和标准笔记本电脑不具备这种“手套适用”的键盘。
5.当前用在实验室中的设备有时非常复杂,而且还设计用于灵活解释复杂的基于文本的输入。例如,m.hummel、d.porcincula和e.sapper在《欧洲涂料杂志》(2019/2/1)的文章“自然语言处理:涂料科学的语义框架——机器人阅读配方”中描述了一种自动化实验室系统,其设计用于自动分析和解释自然语言文本输入,并基于在这些自然语言文本中的信息进行化学合成。但即使在这些系统中用户也必须以人工方式与用户接口交互才能输入所述测试,因此在这里也必须摘下手套。
6.因此,在化学实验室或生物实验室情况下,当前可用于使用计算机或计算机控制机和实验室设备或与之交互的可能方式很有限且效率低。
7.概述
8.本发明的目的是提供根据独立权利要求的改进方法和终端机,其在实验室环境中允许更好地控制软件和硬件部件。在从属权利要求中说明了本发明的实施方式。本发明的实施方式如果不相互排斥的话则可以相互自由组合。
9.一方面,本发明涉及一种用于语音到文本转换的计算机实施方法。该方法包括:
10.‑
由终端机接收用户的语音信号,其中,该语音信号包括用户所说的通用语词和术语词;
11.‑
将收到的语音信号输入到语音文本转换系统,其中,该语音到文本转换系统仅支持将语音信号转换为不包含术语词的目标词汇;
12.‑
从语音到文本转换系统接收由该语音到文本转换系统按照语音信号所生成的文本;
13.‑
根据分配表,通过由术语词自动替换接收文本中的目标词汇的词和短语来生成校正文本,其中,该分配表以文本形式将词彼此配属,其中,该分配表给多个术语词或术语短语中的每一个分配至少一个来自该目标词汇的由该语音到文本转换系统错误识别的词或短语;并且
14.‑
将校正文本输出至软件和/或硬件部件,其被配置用于按照该校正文本中的说明来执行功能。
15.本发明的实施方式特别适合用在生化实验室,因为它们不具有在现有技术中提到的缺点。基于语音的输入允许在任何有麦克风的地方、因此即便在实验室工作区内也能将信息作为语音数据输入终端机中,而无需离开实验室工作站、脱下手套或甚至完全中断工作。
16.虽然现在市场上有用于以基于语音的方式将命令输入计算机系统的廉价的终端机和强大的应用程序,例如alexa(亚马逊)、cortana(微软)、谷歌助手和siri(苹果)。但它们为此设计成支持最终用户的日常活动,例如购物、选择广播节目或酒店预订。所述终端机和应用程序因此针对日常情况而设计并且也仅支持日常语词。即使个别支持术语词(“术语”),但所述系统的识别准确度也显著降低。然而在生物学且尤其是化工业中,在实验室环境中使用大量未出现在通用语中的术语。尤其在化学实验室环境中,语音识别的高精度也是特别重要的。在日常语中小错误通常是可识别的并且可被用户或接收系统识别为错误并且能很容易地纠正或补偿(例如单/复数形式的错误识别不会导致互联网搜索引擎中的相应输入返回明显不同的结果),而在化学合成的环境下,很小偏差(例如“双”而不是“三”)已经可能导致“识别”出与说话者真正意思截然不同的物质,并且所造成的产品要么不可用,要么甚至可能出现潜在威胁,其因使用错误物质而对人员健康或安全实验室操作带来危险。因此,针对日常所设计的所述语音到文本转换系统不适合用在具有相应危险的生化实验室。
17.有时也存在专门针对某个专业的相关对象和词汇所设计的语音到文本转换系统。因此,例如纽昂斯公司为法学业者提供“dragon legal”软件,其除了日常语词汇外还包括法律术语。但缺点是在某个实验室例如油漆和清漆的生产和分析领域所需要的词汇非常专业且动态可变,以致采用可能从例如化学标准教科书中得到的化学术语的语音识别软件通常并不适合用于特殊公司或化工业特殊分支的实践,这是因为实验室也经常用物质商品名。这些商品名可能改变或每年新增针对相关产品的大量新商品名。特别是每年都有大量可被用于制造油漆和清漆的其它产品和产品变体以新商品名被投放市场。即便语音到文本转换系统的准确性达到谷歌或苹果的日常语系统的水平并且将包含最重要的化学术语(但事实并非如此),该系统也因在化学实验室、尤其在油漆和清漆的制造中至关重要的动态和大量名称而不太适合实际应用,因为大多与实践相关的词将不被支持,或至少几年后该词汇将完全过时。
18.根据本发明的实施方式如此解决该问题,即,动用已知不支持相关术语的语音到文本转换系统。因此,从一开始就没有尝试在此实现昂贵复杂的特殊开发,其仅服务于很小的细分市场且因此将几乎无法达到亚马逊、谷歌或苹果的知名大型转换系统的识别准确
度,因为这关系到通用语概念,其在语音输入时除了化学术语外一般也应当被予以考虑且正确识别。相反,本发明的实施方式利用现有服务提供商对于通用语概念的已很好的识别准确度并且在输出识别文本之前执行校正。在校正过程中,依据分配表由术语来取代识别错误的词,从而创建将最后被输出的校正文本。由于该领域的动态以及大量的市场参与者、产品和相应的产品名称,高度专业的术语词汇应当不断被更新以保持软件实用性,因此其最终被置于分配表中。这不太费事就能保持最新状态。
19.新的术语可被如此简单补充,即,新的术语连同一个或多个针对该术语所错误识别的相应目标词汇词一起被补充入该分配表。因而在技术方面,术语的存储和更新与真正的语音识别逻辑完全脱开。这还具有避免依赖于语音识别服务特定提供商的优点。语音识别领域还刚起步,并且尚不能预见众多并行解决方案中的哪一个就识别精度和/或价格而言将长期是最佳选择。根据本发明的实施方式,与特定语音到文本转换系统的关联仅如此进行,即,首先将接收的语音信号发送到转换系统并且接收(错误)文本。此外,分配表包含目标词汇的错误识别的词,这些词已由该特殊转换系统针对特定术语(错误)返回。然而,两者都可以轻易改变,做法是使用不同的语音到文本转换系统来生成(错误)文本,并且为此还借助所述不同的转换系统来重新创建分配表。不需要例如对语法解析器的和/或神经元网络的逻辑进行复杂更改。
20.根据本发明实施方式,对于化学工业或化学生产的现场服务员工,该方法也可能是有利的,因为所述员工本来就经常在其工作活动过程中使用计算机或至少一个智能手机,并且与借助键盘输入文本相比,通过语音输入到例如呈应用程序或浏览器插件形式构成的校正软件使得其更能专注于客户或其活动。
21.根据本发明的实施方式的另一个优点在于该终端机仅获取语音信号、校正该文本并基于校正文本来输出软件功能和/或硬件功能的执行结果。语音信号至文本的真正的语音到文本转换、即计算量明显很大的步骤是由语音到文本转换系统执行的。语音到文本转换系统例如可以是服务器,其通过网络如互联网被连接到终端机。因此,具有低处理器能力的终端机如智能手机或单板计算机可被用于输入和转换长而复杂的口头输入。
22.根据一个实施方式,由语音到文本转换系统生成的文本被终端机接收。终端机然后也执行文本校正,在此,根据实施方式通过终端机也执行其它数据处理步骤,例如计算或接收文本中各个单词的出现概率,从而例如当基于分配表替换词和短语时将所述概率纳入考虑。这种变型实施方式在终端机能力比较强大、例如实验室区域中的台式计算机的情况下是特别有利的。例如该终端机可以具有软件程序,其用于接收语音输入、通过语音到文本接口将语音输入转发给语音到文本转换系统、从该转换系统接收文本、依据分配表校正文本并将校正文本输出到基于软件和/或基于硬件的执行系统。基于软件和/或基于硬件的执行系统是软件或硬件或两者的组合,其被配置用于根据包含在校正文本中的信息执行功能并优选也返回执行结果。该结果优选以文本形式被返回。终端机上的软件程序可被设计为例如浏览器插件或浏览器补丁或可与语音到文本转换系统交互操作的独立软件应用程序。
23.根据一个替代实施方式,由语音到文本转换系统生成的文本也由终端机接收。但终端机本身随后不进行文本校正,而是通过互联网将文本发送到带有校正软件的控制计算机,校正软件基于分配表如所述的那样进行文本校正,并将校正文本作为输入传送给执行系统。执行系统可以由软件和/或硬件组成并被设计为根据校正后的文本输入来执行功能。
执行系统可以是例如实验室软件或实验室设备。根据本发明的实施方式,执行系统将校正文本的执行结果返回给控制计算机。该结果优选也是文本形式的。功能执行结果优选由控制计算机返回到终端机和/或通过其它设备被输出。于是,终端机输出根据校正文本的功能执行结果。控制计算机例如能以云服务形式实现或在单独服务器上实现。这种变型实施方式可能对于中等功率的终端机例如智能手机或控制模块是有利的,它们被集成在单独的实验室设备或用于分析和/或合成化学物质的设备中。终端机在此还针对数据输入、与语音到文本转换系统的数据交换以及与控制计算机的数据交换进行协调。可选地,它可以输出根据校正文本的功能执行结果。在此实施方式中,控制计算机不执行文本校正功能,而是将从语音到文本转换系统收到的文本经网络传输到校正计算机,该校正计算机如上所述地依据该表执行该文本校正。控制计算机接收校正文本并经由网络将其转发到执行系统,执行系统根据校正文本中的信息执行软件功能或硬件功能。该实施方式可能是有利的,因为可以更好地将控制计算机以及校正计算机二者对功能和数据的访问权限分开。如果文本校正在单独云系统上进行,则用户可以在此被赋予访问权限以更新表格,而无需由此访问例如可控制执行系统如实验室设备的控制计算机的敏感数据之权限。
24.因此根据本发明的实施方式,协调与语音到文本转换系统的数据交换、文本校正以及将校正文本转发给执行系统完全由控制计算机执行或由控制计算机组织并协调。因而根据该方法的一些实施方式,终端机本质上是带有麦克风和用于校正文本执行结果的可选输出接口的设备。终端机可以例如包含扬声器和预先配置用于与控制计算机交换数据的客户端软件。这意味着终端机上的客户端软件被配置用于通过网络向控制计算机发送语音信号并且作为响应从控制计算机接收校正文本的执行结果。终端机优选设计为便携式终端机。例如终端机可以是单板计算机如树莓派(raspberry pi)。例如可以在其上安装“树莓派版谷歌助手”软件,其配置成将从终端机收到的语音信号发送到控制计算机。因此,控制计算机的地址在终端机中被设定和存储。这可能是有利的,因为为了与实验室内数据处理设备和服务的简单交互而提供很廉价的便携式终端机。可能的是将这种终端机安放在房间或实验室内的任何位置。用户可以将终端机随身携带到实验室的其它房间,或者更大的实验室可以廉价地配备有多台终端机。
25.根据本发明的实施方式,目标词汇由通用语词的集合组成。
26.根据本发明的其它实施方式,目标词汇由通用语词及其派生词的集合组成。例如这些派生词可以是两个或更多个通用语词的动态创建的串联组合。例如在德语中,许多词、尤其是名词由多个其它名词组合而成。例如“船螺旋桨”(schiffsschraube)一词很常见,以致它一般出现在大多数通用语词典中。而大多数通用语词典中都未收录用得相当少的术语如“紧固螺钉”(befestigungsschraube)。但一些语音到文本转换系统也可以借助启发法和/或神经元网络来识别诸如“紧固螺钉”(befestigungsschraube)之类的词,前提是单独的词组成部分“紧固”(befestigung)和“螺钉”(schraube)是该目标词汇的组成部分。因此从这个意义上,“紧固螺钉”(befestigungsschraube)一词也属于这种语音到文本转换系统的目标词汇。
27.根据本发明的其它实施方式,目标词汇由通用语词的集合辅以通过组合识别音节而形成的词来组成。因此,就可识别哪些词而言,该语音到文本转换系统更灵活,因为识别至少也可以在单独音节而并非仅是单独单词的层面进行。但基于音节的识别也特别易出
错,因为错误识别在已知词汇中不存在的词的风险特别大。因为支持的或已知的音节数量的有限性以及典型词长对可组合音节数量的限制,基于音节可生成的目标词数量也是有限的。因此,支持基于音节的造词的语音到文本转换系统尽管有更高的灵活性,但也具有有限的目标词汇。即使这样的系统理论上因其灵活性而能够动态识别许多未被包含在先前已知词典中的化学术语,但在实践中所述识别准确度很低,以致就实践而言这种系统最终也具有不包含或不支持这些化学术语的目标词汇。
28.在本发明的一些实施方式中,目标词汇由通用语词的集合辅以其派生词并辅以通过组合识别音节形成的词来组成。该转换系统也基于如下的目标词汇,其不包含术语或在实际使用中不能足够准确识别术语,而是取而代之地错误识别其它词、一般是通用语词,并将其转换为文本。
29.因此,当今已可用的大量不同的语音到文本转换系统可被用于根据本发明实施方式的方法,即使所述系统基本上仅“支持”日常语词(即能足够精确地正确识别并转换成文本)。校正软件未被限定于任何特定转换系统。如果某种技术方法随着时间推移被证明特别准确和可靠,则可以使用它而无需在终端机上重新编程源代码的基本组成。
30.根据本发明的实施方式,术语词是来自以下类别之一的词:
31.‑
化学物质、特别是油漆和清漆或油漆和清漆领域的添加剂的名称;特别是所述名称也指称按照化学命名约定的化学名称,例如按照iupac命名法;
32.‑
化学物质的物理、化学、机械、光学或触觉特性;
33.‑
实验室设备和化工业设备的名称(例如商品名或由用户针对实验室的实验室设备所指定的专有名);
34.‑
实验室耗材和实验室需求品的名称;
35.‑
油漆和清漆领域的商品名。
36.根据本发明的实施方式,术语词是来自化学领域、特别是化学工业特别是油漆和清漆化学领域的词。
37.根据本发明的实施方式,执行文本校正的设备或计算机系统、即例如终端机或控制计算机或另一个单独的校正计算机接收或计算用于文本中的至少若干词的频率信息,文本由语音到文本转换系统依照语音信号生成。频率信息针对该文本中的词说明所述词就统计而言预期的出现频率。
38.在生成校正文本时,根据分配表,选择性地仅由术语词替换接收文本中的目标词汇的如下词,按照所接收的频率信息,所述词的就统计而言的预期出现频率低于规定阈值。
39.这可能是有利的,因为用户语音输入一般混合包含通用语词和术语。因此也可能出现如下情况,即,在由转换系统接收的文本中包含目标词汇的词,这些词在分配表中被分配给相应术语且通常将会被替换。例如,返回文本可能包含短语“聚合物创新”(polymer innovation)。由于该短语“聚合物创新”在分配表中被分配给术语“聚合”(polymerisation),故该短语在文本校正过程中通常被“聚合”替代。但如果分配给短语“聚合物创新”的频率信息表示出现概率很高,则校正软件会基于该出现频率而假设短语“聚合物创新”是正确的,尽管它在分配表中被分配给相应术语并因此缘故保持该短语“聚合物创新”在文本中不变。例如,针对句子中或整个语音输入中的词的上下文分析可能表明“创新”(innovation)一词频繁单独出现在文本中,例如因为文本来自描述某聚合物产品优点的外
勤同事。就此而言,短语“聚合物创新”也能表示正确识别的短语。在聚合物和创新二者均未被单独提及的情况下,这种概率降低。无论上下文如何,词本身也已经具有彼此不同的出现概率。
40.可能有利的是根据分配表依据接收文本中的词出现概率来替换词,因为将会避免在少数个别情况下目标语言的本身或在相应文本的上下文中具有高出现频率的词被术语错误替换且因所述替换而产生错误而不是纠正错误。
41.根据一个实施方式,文本的词的出现频率由语音到文本转换系统来计算并与文本一起由语音到文本转换系统返回至终端机或控制计算机。例如,语音到文本转换系统可以使用隐马尔可夫模型(hmm)来计算某个单词在句子语境中出现的概率。作为其补充或替代,语音到文本转换系统可以将词的出现频率等同于该词在大参考语料库中的出现频率。例如,一份报纸几年内的全部文本或其它庞大的文本数据集都可用作参考语料库。在语料库中的词统计数与语料库中的总词数之比是该词的在该参考语料库中所观察到的出现频率。如果文本校正由单独的校正计算机执行,则根据本发明的实施方式,由控制计算机从语音到文本转换系统接收到的频率信息被转发到校正计算机。
42.根据另一个实施方式,在获得文本之后,由终端机计算文本的词的出现频率。如前所述,各个词或短语的出现概率的计算可以借助hmm在考虑词的文本语境情况下或依据该词在参考语料库中的频率来计算。例如可使用由终端机或控制计算机先前从语音到文本转换系统收到的全部文本作为参考语料库。
43.因此根据实施方式,借助隐马尔可夫模型(例如通过终端机或由校正服务)计算频率信息。例如,预期出现频率、即出现概率可以作为单个词序的各个单词的发射概率的乘积来计算,例如像在b.cestnik“估计概率:机器学习中的关键任务”(《第九届欧洲人工智能会议论文集》,第147

150页,瑞典斯德哥尔摩,1990年)中有所描述。
44.根据本发明的实施方式,终端机或控制计算机不仅接收文本、也接收用于文本中的至少若干词的词性标签(pos标签),文本由语音到文本转换系统从语音信号中生成。词性标签由语音到文本转换系统接收并且至少包含用于名词、形容词和动词的标签。也可行的是词性标签包含附加类型的句法或语义标签。所考虑的pos标签的确切组成也可能取决于相应的语言。在分配表中,术语词连同其pos标签以关联的方式被存储。在生成校正文本时,根据分配表,由术语词来替换接收文本中的目标词汇的词性标签一致的词。
45.这可能是有利的,因为由此将提高文本校正步骤的准确性。可以假设分配表中的pos标签是正确的,因为该表中的条目被如此半自动创建,即,一个或多个说话者将术语词或术语短语输入麦克风中,由此造成的音频信号通过语音到文本转换系统被转换为目标词汇的(错误)词或(错误)短语,并且该错误的词或该错误的短语与术语短语一起以关联的方式被存储在分配表中。因为知道了术语代表什么以及它是例如名词、动词还是形容词,故还可以在创建或更新表格时将术语短语也与正确的pos标签以关联的方式一同存储起来。因此如果应当根据分配表将文本中的某个词和某个短语替换为术语词,但要替换的文本的词性标签与该术语词的词性标签不一致,这表明文本中的相应词仍可能是正确的。pos标签的识别率较高,因此通过该措施可以提高校正步骤的质量。例如可能的是,术语词是例如商品名它指称来自科思创公司的热塑性聚氨酯膜。在该表中,词性标签“名词”被分配给这个术语。从语音到文本转换系统中知道了它经常将口语词“platilon”错误地转
换为目标词汇词“platin”(铂),因而在分配表中将目标词汇的词“platin”分配给术语“platilon”。然而在用户当前语音输入的情况下,这个词被用作形容词:“添加铂基或锌基催化剂[...]”。根据在由转换系统返回的文本中“platin”的词性标签,在此可以识别出:“platin”一词在这里是正确的,并且不应被“platilon”代替。
[0046]
根据本发明的实施方式,该方法包括分配表生成步骤。对于大量术语词中的每一个,记录至少一个参考语音信号,其选择性再现该术语词。该参考语音信号来自至少一个说话者。同样对于术语短语,能够分别由至少一位说话者说出并记录至少一个选择性再现该术语短语的参考语音信号。其它步骤对于词和短语是基本相同的,因此以下在提到术语词时还包括术语短语。每个记录的参考语音信号都被输入语音到文本转换系统中。输入尤其可以通过网络如互联网进行。对于每个输入参考语音信号,已经输入参考信号的设备接收由语音到文本转换系统从输入参考语音信号中生成的目标词汇的至少一个词。例如该设备可以是终端机。但是,参考语音信号的采集以及最终用于创建或扩展分配表的目标词汇的(错误)词或短语的接收也可以通过任何其它具有针对语音到文本转换系统的网络连接的设备来完成。参考语音信号的输入优选是经由在结构工程方面以及在相对于噪声源的定位方面与终端机尽可能相似的设备来进行的,以确保可再现地产生相同错误。因为语音到文本转换系统的目标词汇不支持术语词,故针对每个术语词所接收的目标词汇的至少一个词(也可以是短语)代表错误转换。最后,分配表作为表来生成,该表给已被相应采集至少一个参考语音信号的每个术语词分配呈文本形式的目标词汇的至少一个词,其已分别由语音到文本转换系统从包含该术语词的参考语音信号中生成。
[0047]
这可能是有利的,因为可以很容易修改和补充表格而不必更改源代码、重新编译程序或重新训练神经元网络。即使使用不同的语音到文本转换系统,也只需调整相应的客户端接口并由一个或多个说话者用麦克风重新输入表格的术语短语并将其传输到新的语音到文本转换系统。目标语言的由新系统返回的错误词和短语构成新分配表的基础。因此可能的是,在功能上扩展任何日常用语的语言到文本转换系统而无需进行彻底或复杂的更改以及无需重新训练语言软件,从而将带有术语词和术语短语的口语文本正确转换为文字。分配表例如可以作为关系数据库的表或作为制表符分隔的文本文件或其它功能相似的数据结构被存储。
[0048]
根据本发明实施方式,对于至少其中若干术语词(或术语短语)中的每一个记录相应不同说话者的多个参考语音信号。所述多个参考语言信号再现该术语词(或术语短语)。该分配表给至少其中若干术语词(或短语)中的每一个相应分配呈文本形式的目标词汇的多个词(或短语)。目标词汇的多个词(或短语)代表语音到文本转换系统针对不同的说话者依据其声音所产生的错误转换。
[0049]
例如,诸如“1,2

亚甲基二氧基苯”之类的特定术语词可以由100个不同的人说出并用麦克风作为参考语音信号来相应记录。这些人优选是熟悉化学短语发音的人。因此,对于这一物质名称有100个参考语音信号。这100个参考语音信号中的每一个都被发送到语音到文本转换系统,并且作为响应返送目标词汇的100个词或短语,它们都未正确再现真正术语名称。通常,返回的100个词是彼此相同的,但并非总是如此。不同的人有不同的声音,就是说,语音输入在语调、音量、音高和清晰度方面有所不同。因此,某个语言到文本转换系统可能针对某个术语词(或某个术语短语)返回多个彼此不同的、错误的词或短语,它们都被
纳入该分配表。
[0050]
可能有利的是为了创建分配表而考虑许多不同人的语音输入,因为由此能更好地考虑人语音的多样性且因此可以获得改善的纠错率。
[0051]
根据本发明的一些实施方式,执行文本校正的终端机或计算机系统被配置用于通过扬声器和/或显示器将校正文本输出给用户。这样做的优点是用户再次有机会检查校正文本正确性。
[0052]
根据本发明的一些实施方式,执行文本校正的终端机或计算机系统被配置用于向用户输出由执行系统提供的校正文本的执行结果。输出例如可以如此进行,即,结果以文本形式被显示在终端机屏幕上。作为其补充或替代,校正文本的执行结果可以通过文本到语音接口和终端机扬声器被输出。
[0053]
根据一个实施方式,根据校正文本执行功能的执行系统是软件。
[0054]
例如该软件可以是化学物质数据库。特别是,该软件可以是数据库管理系统(dbms)和/或可与dbms交互操作的外部软件程序,其中,dbms包含并管理化学数据库。该软件设计成将校正文本解读为搜索输入并在数据库内确定和返回有关搜索输入的信息。物质数据库例如可以是化学设备如hte设备的组成部分。
[0055]
作为其补充或替代,该软件可以是互联网搜索引擎,其被设计成将校正文本解读为搜索输入并在互联网上确定和返回关于搜索输入的信息。
[0056]
作为其补充或替代,该软件可以是模拟软件。该模拟软件设计用于基于用于产品生产的规定配方来模拟化学产品、特别是油漆和清漆的特性。在此情况下,模拟软件将校正文本解读为应模拟特性的产品的配方的详细说明和/或解读为产品特性的详细说明。
[0057]
作为其补充或替代,该软件可以是用于控制化学合成和/或生产混合物特别是油漆和清漆的控制软件。控制软件设计用于将校正文本解读为与合成或混合物成分相关的详细说明。
[0058]
根据本发明的其它实施方式,校正文本通过终端机被输出到硬件部件。硬件部件尤其可以是用于进行化学分析、化学合成的设备和/或用于生产混合物特别是油漆和清漆的设备。该设备设计用于将校正文本解读为与混合物的合成或成分有关的详细说明,或解读为针对待执行分析的详细说明。该设备可以是用于分析和生产油漆和清漆的高通量设备(hte设备)。例如hte设备可以是如wo 2017/072351 a2所述的用于自动化测试和自动化生产化学产品的系统。
[0059]“将校正文本输出给软件和/或硬件部件”可能尤其在生物实验室或化学实验室的环境中是很有利的,因为语音输入被如此处理,即,其可被直接转送至技术系统并由它正确解读,而例如用户不必摘下手套或离开实验室。例如,硬件部件可以是化学实验室或生物实验室内的设备或设备模块或计算机系统。例如,硬件部件可以是用于执行化学分析或用于生产油漆和清漆的自动系统或半自动系统。
[0060]
用于分析和/或合成化学产品尤其是油漆和清漆的系统可以是hte设备。
[0061]
例如,用于分析和/或合成化学产品的系统可被设计为全自动响应于通过机器与机器之间的接口输入的校正文本来自动执行以下一个或多个工作步骤:
[0062]

物质和混合物的流变分析;
[0063]

测量物质和混合物的储存稳定性,尤其依据液态混合物的不均质性和沉淀趋势;
例如所述分析可以在采样后根据比色皿中的光学测量来进行;
[0064]

确定物质和混合物的ph值;
[0065]

物质和混合物的泡沫测试,特别是消泡效果的测量和泡沫破灭动力学的测量;
[0066]

物质和混合物的粘度测量;粘度测量可以尤其在高粘度物质或混合物情况下包括自动稀释步骤,因为在稀释溶液中的粘度可更容易被确定;初始物质或混合物的粘度基于稀释溶液的粘度来计算;
[0067]

测量物质或混合物且特别是成品的搓揉行为(磨损试验);
[0068]

依据例如用光散射工作的分光光度计来测量物质和混合物的颜色值(所谓的l

a

b值)、雾度和光泽度;
[0069]

按照各种规定参数(温度、湿度、平面的表面特性等)被施加于一平面的物质和混合物的层厚测量;
[0070]

物质和混合物图像的图像分析处理,特别是用于物质表面的表征,例如油漆和清漆中气泡或划痕的数量、大小和分布。
[0071]
所述物质和混合物尤其可以是用于生产油漆和清漆的物质和混合物。此外,所述物质和混合物可以是最终产品如呈液态或干燥形式的油漆和清漆,以及是中间产品例如颜料浓缩物、研磨树脂和颜料浆以及所用溶剂。
[0072]
根据本发明的实施方式,语音到文本转换系统是作为经由互联网提供给多个终端机的服务来实现的。例如语音到文本转换系统可以是谷歌的“语音到文本”云服务。这可能是有利的,因为为此有功能强大的api客户端数据库,例如用于.net。
[0073]
这可能是有利的,因为语音信号到文本的计算密集型转换过程并非在终端机上、而是在服务器且优选是云服务器上进行,它具有比终端机更强大的计算能力,并且是针对将大量语音信号快速且并行转换成识别文本来设计的。
[0074]
终端机例如可以是台式电脑、笔记本电脑、智能手机、平板电脑、集成到实验室设备中的计算机、本地连接到实验室设备的计算机或单板计算机(树莓派),特别是带有麦克风和扬声器(“智能扬声器”)的单板计算机。实现根据本发明实施方式的方法的软件逻辑能仅在终端机上或者通过终端机和一个或多个其它计算机特别是云计算机系统以分布式方式来实现。软件逻辑优选是独立于设备的且优选还独立于终端机操作系统的软件。
[0075]
终端机优选是位于实验室室内或至少与实验室室内的麦克风有效连接的设备。
[0076]
在另一方面,本发明涉及一种终端机。该终端机包括:
[0077]

用于接收用户的语音信号的麦克风,其中,该语音信号包括用户所说的通用语词和术语词;
[0078]

连至语音到文本转换系统的接口,该接口设计用于将接收的语音信号输入语音到文本转换系统。语音到文本转换系统仅支持将语音信号转换为不包含术语词的目标词汇。该接口设计用于接收由语音到文本转换系统依照语音信号生成的文本;
[0079]

带有呈文本形式的词分配表的数据存储器。该分配表给多个术语词或术语短语中的每一个相应分配目标词汇的至少一个词。分配给术语词的至少一个词也可以是短语或目标词汇的由词或短语组成的集合。目标词汇的分配给术语词的至少一个词是如下的词或短语,在该术语词时以音频信号形式被输入时,该语音到文本转换系统错误识别(并且在创建分配表过程中错误识别)该词或短语;
[0080]

校正程序,其设计用于通过根据分配表由术语词自动替换接收文本中的目标词汇的词和短语来生成校正文本;和
[0081]

用于向用户和/或执行系统输出校正文本的输出接口。执行系统是软件和/或硬件部件并被配置用于根据校正文本中的信息执行功能。
[0082]
该终端机优选配置用于通过该接口或其它接口从软件或硬件接收执行结果。
[0083]
终端机优选还包括输出接口,例如声学接口如扬声器或光学接口如呈现在显示器上的gui(图形用户界面)。但它也可以是其它接口,例如是用于与某个实验室设备交换文本数据的专有数据格式。
[0084]
在另一方面,本发明涉及一种系统,其包括根据在此所述的实施方式之一的一个或多个终端机。该系统还包括语音到文本转换系统。该语音到文本转换系统包括:
[0085]

用于从一个或多个终端机中的每个终端机接收语音信号的接口;和
[0086]

自动语音识别处理器,其用于按照接收的语音信号生成文本。语音识别处理器仅支持将语音信号转换为不包含术语词的目标词汇。语音到文本转换系统的所述接口被设计用于将按照接收的语音信号生成的文本返回到发出所接收语音信号的终端机。
[0087]
根据一些实施方式,尤其是当文本校正不是由终端机进行而是由控制计算机或校正计算机进行的时,该系统也包括控制计算机和/或校正计算机。
[0088]
根据本发明的实施方式,该系统还包括根据校正文本执行功能的软件或硬件部件。
[0089]“词汇”在这里是指语言区域、即可供实体如语音到文本转换系统使用的词集合。
[0090]“词”在此是指在特定词汇中出现并代表独立语言单位的相关连贯字符串。在自然语言中,与音素或音节不同,词具有固有含义。
[0091]“短语”在这里是指由两个或更多个的词组成的语言单位。
[0092]“术语词”或“术语”在此是术语词汇的词。术语词不属于目标词汇且通常也不是通用语词汇的组成部分。
[0093]“语音到文本转换系统只支持将语音信号转换为目标词汇”这一表述意味着另一个词汇的词要么根本无法被转换为文本,要么只能以很高的错误率被转换为文本,其中,该错误率高于每个待转换的词或短语的错误率极限值,极限值应当被视为语音到文本功能转换的最大容差度。例如就每个词或短语的错误概率而言,该极限值可以是超过50%、优选已经超过10%。
[0094]
词性标签(pos标签)在此是指一种特殊标记(“标签”),它被分配给文本语料库中的每个词,以说明该词在其相应文本语境中所表示的语言部分以及通常还有其它语法类别如时态、数(复数/单数)、大写/小写等。语料库所用的所有pos标签的集合被称为标签集。不同语言的标签集通常是彼此不同的。基本标签集包含用于最常见语言组成的标签(例如n代表名词,v代表动词,a代表形容词等)。
[0095]“虚拟实验室助手”是软件或软件例程,它有效连接至一个或多个位于实验室内的实验室设备和/或软件程序,从而可从所述实验室设备和实验室软件程序接收信息并由实验室助手将执行功能的命令发送至实验室设备和实验室软件程序。因此,实验室助手具有用于与一个或多个实验室设备和实验室软件程序进行数据交换并对其加以控制的接口。实验室助手还具有针对用户的接口并且被配置成通过接口使用户能更容易地使用、监视和/
或控制实验室设备和实验室软件程序。例如用户接口可以设计为声学接口或自然语言文本接口。
[0096]“终端机”在此是指数据处理设备(例如个人电脑、笔记本电脑、平板电脑、单板系统、树莓派电脑、智能手机等)。终端机优选被连接到网络接口。
[0097]
根据本发明的实施方式,“参考语音信号”是由麦克风采集且基于如下语音输入的语音信号,该语音输入不是为了操作软件或硬件而由说话者输入麦克风的,而是用以能够创建或补充分配表。语音输入是口述术语词或口述术语短语,其被采集以便将相应的语音信号转发至语音到文本转换系统并作为响应由转换系统获得基于错误转换的目标词汇的词或短语。
附图简介
[0098]
在以下的图中举例详细说明本发明的实施方式:
[0099]
图1示出具有术语词的文本的语音到文本转换方法的流程图;
[0100]
图2示出具有术语词的文本的语音到文本转换分布式系统的框图;
[0101]
图3示出另一个语音到文本转换分布式系统的框图;
[0102]
图4示出另一个语音到文本转换分布式系统的框图;
[0103]
图5示出在实验室范围内的另一个语音到文本转换分布式系统的框图。
[0104]
详细说明
[0105]
图1示出用于含有术语词的文本的语音到文本转换的计算机实施方法的流程图。该方法的特殊优点是可将已有的语言到文本转换系统用于识别和转换含有术语的文本,确切说,即使该转换系统根本不支持术语词汇也能这样做。该方法可以由终端机单独执行或由终端机和其它数据处理设备如控制计算机和/或通过网络提供校正服务的计算机一起执行。在图2、图3和图4中示出能实现根据本发明实施方式的方法的分布式和非分布式数据处理系统的若干可能架构。在描述图1的流程图时也将部分参照这些图。
[0106]
该方法通常可被用在化学实验室或生物实验室的环境中。在实验室中有一系列单独的分析仪器和高通量设备(高通量环境/hte设备)。hte设备包含大量单元和模块,它们能分析和测量物质和混合物的各种化学参数或物理参数,并可以基于用户输入配方来组合和合成大量不同的化学产品。另外,实验室中有终端机,如实验室工作人员的带有呈浏览器插件形式的相应软件的笔记本。hte设备包含内部数据库,其中存储有例如油漆和清漆的配方及其原材料以及它们相应的物理、化学、光学和其它性能。此外,其它相关数据可被存储在数据库中,例如来自物质制造商的产品数据表、安全数据表、用于分析或合成某些物质或产品的hte设备的各个模块的配置参数等。hte设备被设计用于基于以文本形式所输入的配方和规程来执行分析和合成。
[0107]
在实验室房号为22号的实验室内的常见活动涉及例如以下活动和实验室工作人员202的与之相关的可能语音输入,以促使软件或硬件执行操作:
[0108]

前一天,实验室工作人员已开始分析某种涂料的流变性能,并且现在想要查询存储在hte设备数据库中的结果。可能的语音输入:“控制计算机,给我看看22号房间hte设备于2019年2月24日的流变分析结果”。
[0109]

实验室工作人员需要节省成本并在考虑用更廉价的溶剂<<溶剂_廉价>>代替某
种溶剂<<溶剂_昂贵>>。名称<<溶剂_廉价>>是制造商的商品名。但他不确定更廉价的溶剂是否适用于要生产的清漆并想要查看产品数据表,在产品数据表中详细说明了关于廉价溶剂的化学和物理特性的其它信息。可能的语音输入:“控制计算机,给我看看<<溶剂_廉价>>的产品数据表”或“控制计算机,给我看看存储在22号房的hte数据库中的<<溶剂_廉价>>的产品数据表”。
[0110]

在查看了溶剂<<溶剂_廉价>>的产品数据表后,实验室工作人员认为该溶剂预计可代替更昂贵的溶剂来用于生产某种清漆。但假定应当对配方做一些调整,因为多个参数如ph值、流变特性、极性等与更昂贵的溶剂的参数不同。由于这些属性相互影响,因此无法人工确定对配方的必要调整。执行一系列测试既费力又费时。但实验室所具备的软件可以基于某个配方预测(模拟)化学产品例如油漆和清漆的特性。所述模拟可以例如基于cnn(卷积神经元网络)。实验室工作人员想要使用该模拟软件来模拟基于已知配方的清漆可能特性,其中,昂贵的溶剂已被廉价的溶剂替代。可能的语音输入:“控制计算机,使hte模拟软件按照以下配方计算清漆特性:70.2克环烷油、4克甲基正戊基酮、1.5克丙酸正戊酯、1克超吸收剂、50克<<溶剂_廉价>>”。
[0111]

模拟表明,廉价的溶剂不适于生产清漆。实验室工作人员现在想在互联网上搜索可替代昂贵溶剂而不影响产品质量的其它溶剂以降低成本。可能的语音输入:“控制计算机,在互联网上搜索<<用于清漆生产的高粘度溶剂>>”。
[0112]
根据本发明的实施方式,所有这些针对相应执行系统的输入和命令都可以达成,而用户不必为此离开实验室和/或摘下手套。
[0113]
在第一步骤102中,实验室工作人员202向终端机212、312的麦克风214进行语音输入204。例如语音输入可以由上述语音命令之一构成。语音输入一般包含呈通用语和术语形式的词和短语。例如词或短语“流变”、“环烷油”、“甲基正戊基酮”、“丙酸正戊酯”是化学术语,而<<溶剂_廉价>>是化学产品的商品名。这些词或短语通常未被包含在由常见通用语的语言到文本转换系统支持的词汇(“目标词汇”)中。
[0114]
麦克风214将语音输入转换为电子语音信号206。然后,语音信号在步骤104中被输入到语音到文本转换系统226。
[0115]
例如如图2所示,终端机可具有接口224和相应的客户端应用程序222,其面向例如谷歌、苹果、亚马逊或纽昂司的已知通用语语音到文本转换系统226之一。客户端应用程序222通过接口224将语音信号直接发送到语音到文本转换系统226。但在其它实施方式中也可行的是语音信号通过一个或多个中间接入的数据处理设备被发送到语音到文本转换系统226。根据图3和图4所示的本发明实施方式,语音信号首先被发送到控制计算机314、414,其然后将语音信号经由网络236转发到语音到文本转换系统226。网络可以是例如互联网。
[0116]
控制计算机系统314、414执行关于语音信号和由其生成的文本的管理和处理而言的协调和控制活动。控制计算机314是如下数据处理系统,它自己进行文本校正。控制计算机414也将该计算步骤外包给另一个数据处理系统。
[0117]
语音到文本转换系统226是通用语言转换系统;就是说,它仅支持将语音信号转换为不包含语音输入204的术语词的通用语目标词汇234。
[0118]
现在,语音到文本转换系统基于目标词汇将语音信号转换为文本。通常,语音到文本转换系统226是云服务,其可以并行处理多个终端机的大量语音信号并通过网络将其返
送至终端机。但是,根据语音到文本转换系统的实现方式,所生成的文本将必然或很有可能地包含错误识别的词和短语,因为语音输入204的至少其中若干词和短语由术语词或术语短语组成,而转换系统只支持不包含术语词和术语短语的目标词汇。
[0119]
在步骤106中,已将语音信号206发送到语音到文本转换系统226的数据处理系统作为响应从语音到文本转换系统接收由该信号生成的文本208。因此根据系统架构的不同,用作接收器的数据处理系统(“接收器系统”)可以是终端机,或是如图3所示的控制计算机314,或是如图4所示的控制计算机414。
[0120]
在进一步的步骤110中,使用分配表238来校正接收文本。完成文本校正的数据处理系统根据其功能在此也被称为“校正系统”。根据实施方式的不同,它可以是终端机212,或是控制计算机系统314,或是校正计算机系统402。如果接收器系统和校正系统彼此不同,则从接收系统接收的文本208被转发到校正计算机系统。
[0121]
在分配表238中,呈文本形式的词相互对应。准确地说,分配表给大量术语词或术语短语中的每一个相应分配来自目标词汇的至少一个词。目标词汇的被分配给术语词(或术语短语)的至少一个词是如下的词或短语,当该术语词以音频信号形式被输入到语音到文本转换系统中时,该语音到文本转换系统错误识别所述词或短语(并且在制作表时事先已被错误识别)。
[0122]
在步骤110中,校正系统212、314、402按照转换系统226的错误文本208来生成校正文本210。校正文本如此由校正系统自动生成,即,在接收文本208中的目标词汇的词和短语根据分配表238由术语词替换。
[0123]
如果校正系统如图4所示是校正计算机,则校正文本将被返回到控制计算机。
[0124]
在步骤112中,终端机或控制计算机将校正文本210直接或间接地输入到执行系统240中。图5示出用于各不同执行系统的例子。执行系统、即软件和/或硬件部件根据校正文本执行软件功能和/或硬件功能并返回结果242。例如,该结果可被直接返回到终端机,或也可以通过作为中间站的控制计算机被返回到终端机。但替代地或附加地,该结果也可被返回到其它终端机和其它数据处理系统。
[0125]
在图3和图4所示的实施方式中,作为校正系统来工作的控制计算机314将校正文本发送到执行系统240,从执行系统接收执行结果242并将该结果转发到终端机以输出给用户202。该结果通常是文本,例如在数据库中被检索的用于化学物质合成的配方、在数据库或互联网上所确定的文件例如物质的产品数据表、有关根据校正文本中的数据所做的化学分析或合成已成功结束的确认消息(或如果不是这样,则是相应的错误通报)。
[0126]
最后,终端机或另一数据处理系统可以向用户202输出通过由软件和/或硬件组成的执行系统240执行功能的结果。软件和/或硬件优选是在实验室内设计的或专门设计用于实验室内活动的或至少可被用于此的软件和硬件。
[0127]
例如,终端机212可以包含扬声器或与其通信相连,并且经由该扬声器以声学形式输出结果。作为其补充或替代,终端机可以包含用于向用户输出结果的屏幕。其它输出接口也是可能的,例如基于蓝牙的部件。
[0128]
例如,根据本发明实施方式的方法可以用于借助语音控制来实现电子设备特别是实验室设备和hte设备的语音控制。语音控制也可被用于在实验室的相应数据库中检索和输出在实验室中已经进行的分析和合成的结果、实验室协议和产品数据表,并也用于在互
联网上和在可通过互联网访问的公共或私有数据库中以语音控制方式进行补充检索。包含化学品或实验室设备或实验室耗材的特殊商品名和/或化学术语的名称和附属词的语音命令被正确转换为文本,因此可以由执行系统正确解读。因此根据本发明实施方式,可以实现化学或生物实验室或实验室hte设备的基本上呈语音控制形式的高度集成化工作。语音输入中的“控制计算机”一词可以例如表示用于基于语音来操作实验室设备和/或实验室hte设备的虚拟助手502的名称。与用于日常问题的虚拟助手alexa和siri相似地,“控制计算机”一词(或任何其它可能更拟人化的名称如“eva”)可以用作触发信号,以促使实验室助手的文本评估逻辑评估校正文本。实验室助手被配置用于检查每个接收文本是否包含其名称和或许任何其它关键词。如果是这种情况,则进一步分析校正文本以识别并执行其中编码命令。
[0129]
根据一个实施方式,基于被输入到实验室设备或hte设备中的校正文本所确定的结果数据的输出是通过位于实验室内的扬声器来进行的。例如扬声器可以是作为接收用户语音输入的终端机组成部分的扬声器。但它也可以是与该终端机通信连接的另一个扬声器。这具有以下优点,即,实验室工作人员可以以其声音连贯输入命令,以便例如迅速获悉分析结果、产品数据表或有关化学分析、合成和产品的其它关联信息。该语音搜索信息的结果通过扬声器以声学方式被输出。用户可以使用所听到的信息来陈述进一步的搜索命令和/或在考虑到声音输出的检索结果情况下对着麦克风说出语音命令以进行分析或合成。这种声音输入和输出的循环可以重复多次,而为此不需要通过键盘输入数据或命令。但实验室过程可以安排得明显更高效。
[0130]
就油漆和清漆的化学合成而言,特别有利的是有效收集化学物质信息以及对实验室设备和hte设备进行语音控制,因为生产油漆和清漆需要大量的原材料,其中,它们的性能以复杂方式相互作用并显著影响产品特性。就油漆和清漆的生产而言出现大量的分析、控制步骤和系列测试。油漆和清漆是由多达20种或更多种原料组成的高度复杂混合物,例如溶剂、树脂、硬化剂、颜料、填料和大量添加剂(分散剂、润湿剂、增附剂、消泡剂、杀虫剂、阻燃剂等)。有效采集有关单独组分的信息以及用以控制相应的分析和合成设备的信息可以显著加快制造过程并提升产品质量保证。
[0131]
图2示出用于以语言至文本的方式转换具有术语词的文本的分布式系统200的框图。
[0132]
系统300及其组成部件的主要功能已关于图1进行了描述。终端机212例如可以是笔记本电脑、标准电脑、平板电脑或智能手机。客户端软件222被安装在终端机上,客户端软件可与现有的通用语言型语音到文本转换系统226交互操作。例如,语音到文本转换系统226是云计算机系统,其通过相应语言到文本接口(szt接口)224经由互联网以服务形式提供这种转换。该服务是在服务器端实现的软件程序232,其在功能方面对应于语音识别和语言转换处理器。例如软件程序232可以是谷歌的语音到文本云服务。在这种情况下,接口224是来自谷歌的基于云的api。
[0133]
在图2所示的实施方式中,终端机具备分配表238和足够的计算能力,其本身基于表对由语音到文本转换系统226生成的文本208进行校正。“将语音信号206发送到服务器226”、“从服务器226接收文本208”和“校正该文本以创建校正文本210”因此都可以在客户端程序222中实现。客户端程序222可以是例如浏览器插件或可通过接口224与服务器软件
232交互操作的独立应用程序。
[0134]
图3示出用于语音转换为文本的另一个分布式系统300的框图。
[0135]
系统300及其组成部件的主要功能已经关于图1和图2进行了描述。系统300的系统架构与系统200的架构不同之处在于终端机312将文本校正功能外包给控制计算机314。安装在终端机312上的客户端软件316(在这里被称为控制客户端)与安装在控制计算机314上的相应控制程序320可交互操作。终端机通过网络236(例如互联网)连接到控制计算机314。控制接口318用于在控制客户端316和控制程序320之间的数据交换。
[0136]
例如控制计算机314可以是标准计算机。然而,控制计算机优选是服务器或云计算机系统。
[0137]
安装在控制计算机上的控制程序320一方面实现协调功能322以协调各种数据处理设备(终端机、控制计算机、语音到文本转换系统)之间的数据(语音信号206、识别文本208、校正文本210)的交换。另一方面,在在此所示实施方式中,控制程序320实现在系统200中由终端机执行的文本校正功能324。校正功能324是指根据分配表238由术语词和术语短语替换在接收文本208中的目标词汇的词和短语。此外在替换过程中也可以将出现概率和/或pos标签纳入考虑,其由控制计算机314计算或通过szt接口244连同文本208一起从语音到文本转换系统226被接收。在本实施方式中仅控制与转换系统226的数据交换而不进行文本校正的语音客户端222可以作为控制程序320的组成部分来实现。但也可行的是控制程序320和客户端222是彼此独立的但可交互操作的程序。
[0138]
图3所示的架构有以下优点,即,终端机不必执行任何计算密集型操作。语音信号到文本的转换和文本校正都由其它数据处理系统接管。终端机312的功能基本被局限于:接收语音信号206、将语音信号转发到具有已知地址的指定控制计算机314并且输出由执行系统在根据校正文本执行功能时所返回的结果。
[0139]
图4示出用于语音转换为文本的另一个分布式系统400的框图。
[0140]
系统400及其组成部件的基本功能已经关于图1、图2和图3做了描述。系统400的系统架构与系统300的架构不同之处在于控制计算机414本身不执行文本校正,而是由另一台计算机达成,其在此被称为“校正计算机”或“校正服务器”402,在这里,另一台计算机402通过网络和专属接口406以可交互操作的方式连接至控制计算机的控制程序320。
[0141]
这种架构可能是有利的,因为可被设计为云系统的单独计算机或计算机网络被用于文本校正。这简化了访问权限的单独分配。在控制计算机414上的控制程序320例如可以关于在实验室内例如借助hte设备的化学物质和混合物分析和合成过程中产生的各种具有一定敏感性的数据而言具有广泛的访问权限。根据本发明的实施方式,控制计算机414可以例如具有机器对机器接口,以便将呈控制指令形式的校正文本直接发送至实验室设备或hte设备或其数据库,以便在那里启动基于校正文本210的分析、化学合成或检索。因此,用于控制计算机414的安全且严格的访问保护特别重要。
[0142]
在系统400架构环境中的校正服务器402仅用于校正由语音到文本转换系统226生成并返回到控制程序320的文本208。因此,根据本发明的实施方式,尽管用户获得对校正服务器402的访问权例如以更新表238并补充其它术语和术语短语,但该用户没有对控制计算机414的读和/或写访问权。因此可能的是连续更新分配表和进而文本校正,而为此无需向相关负责的人员授予对实验室的关键控制逻辑和数据库存的全面访问权限。
[0143]
分布式系统300、400的终端机312例如可以是计算机、笔记本电脑、智能电话等。但也可能的是它是计算能力较弱的单板计算机例如树莓派系统。
[0144]
已知的语音到文本云服务商的硬件(智能音箱)所追求的目标是直接控制和使用由云服务商自己开发的服务。目前尚未开发出或只在非常有限范围内开发出在术语词汇领域中的应用。
[0145]
在此所示的所有系统架构200、300、400和500允许借助不受云供应商限制的独立硬件来使用各不同云供应商的现有语音到文本api,以实现专业特定的语音识别且在此基础上实现对实验室设备和实验室内电子搜索服务的控制。
[0146]
图5示出在化学实验室范围内的用于语音到文本转换的另一个分布式系统500的框图。实验室包括具有常规安全规定的实验室区域504。在实验室区域中有各种单独的实验室设备516如离心机以及hte设备518。hte设备包含大量模块和硬件单元506

514,它们由控制器520管理和控制。该控制器用作中央接口,用于对外监视和控制hte设备所包含的仪器。控制计算机414上的控制程序320包含实现虚拟实验室助手的软件模块502。
[0147]
按照用户202的语音输入204来生成校正文本210,正如根据本发明实施方式已描述的那样。在控制程序320从校正计算机402接收到校正文本后,控制程序对其进行评估并同时搜索关键词如“控制计算机”或“eva”。如果校正文本包含该关键词,则促使虚拟实验室助手502随后进一步分析校正文本,以确定校正文本是否包括用于执行硬件功能或软件功能的指令,以及在包含该指令的情况下确定应该在实验室助手502的控制下由其中哪个硬件或软件执行所述指令。例如校正文本可以包含设备或实验室区域的名称,其详细说明应该将指令转发到哪个设备和哪个软件。
[0148]
在一个可能实施例中,虚拟实验室助手对校正文本210的评估表明,互联网搜索引擎528应搜索在校正文本210中被指定为术语词或术语短语的某种物质。虚拟助手502通过互联网将校正文本或其某些部分输入到搜索引擎中。互联网搜索结果524被返回到助手502,其将它们转发到用户202附近的合适的输出设备如终端机312,其将在那里例如通过扬声器或屏幕218被输出。
[0149]
在另一个可能实施例中,虚拟实验室助手对校正文本210的评估表明,实验室设备512即离心机应在特定速度下使某种物质成粒。离心机和物质的名称在校正文本210中作为术语词或术语短语被详细说明,这已经足够了,因为离心机基于物质名称从内部数据库自动读取要使用的离心参数如持续时间和转速。校正文本或其某些部分由虚拟助手502通过互联网发送到离心机512。离心机启动属于该物质的离心程序并以文本消息522形式返回有关离心是否成功的消息。结果522被返回到助手502,助手将其转发到合适的输出设备例如终端机312,它将在那里例如通过扬声器或屏幕218被输出。
[0150]
在另一个可能实施例中,虚拟实验室助手对校正文本210的评估表明,hte设备518应该合成特定的清漆。油漆成分也在校正文本中被详细说明,并且由化学品的商品名和iupac物质名混合组成。hte设备接收校正文本210并自主决定在合成单元514中进行合成。关于合成成功的消息或错误通报作为结果526从合成单元514被返回至hte设备518的控制器,并且该控制器又将结果526返回至虚拟实验室助手592,它将其转发给合适的输出设备例如终端机312,其将在那里如通过扬声器或屏幕218被输出。
[0151]
附图标记列表
[0152]
102

112
ꢀꢀꢀꢀꢀꢀꢀꢀ
步骤
[0153]
200
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
分布式系统
[0154]
202
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
用户
[0155]
204
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
语音输入
[0156]
206
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
语音信号
[0157]
208
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
识别文本
[0158]
210
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
校正文本
[0159]
212
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
终端机
[0160]
214
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
麦克风
[0161]
216
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
处理器
[0162]
218
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
屏幕
[0163]
220
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
存储介质
[0164]
22
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
客户端程序
[0165]
224
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(客户端侧)接口
[0166]
224'
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(服务器端)接口
[0167]
226
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
语言到文本转换系统/云系统
[0168]
228
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
处理器
[0169]
230
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
存储介质
[0170]
232
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
语音识别处理器
[0171]
234
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
目标词汇
[0172]
236
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
网络
[0173]
238
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
分配表
[0174]
240
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
执行系统(软件和/或硬件)
[0175]
242
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(呈文本形式)校正文本执行结果
[0176]
300
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
分布式系统
[0177]
312
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
终端机
[0178]
316
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
控制程序的客户端软件
[0179]
318
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
控制程序的接口
[0180]
320
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
控制程序
[0181]
322
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
协调功能
[0182]
324
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
文本校正功能/文本校正程序
[0183]
400
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
分布式系统
[0184]
402
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
校正服务器/文本校正云系统
[0185]
404
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
文本校正程序的客户端软件
[0186]
406
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
文本校正程序的接口
[0187]
414
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
控制计算机
[0188]
500
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
分布式系统
[0189]
502
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
虚拟实验室助手
[0190]
504
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
实验室区域
[0191]
506
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
分析仪器
[0192]
508
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
分析仪器
[0193]
510
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
混合器
[0194]
512
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
合成单元
[0195]
514
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
合成单元
[0196]
516
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
独立式实验室设备
[0197]
522
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(文本形式)校正文本执行结果
[0198]
524
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(文本形式)校正文本执行结果
[0199]
526
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(文本形式)校正文本执行结果
[0200]
528
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
互联网搜索引擎