一种基于视觉听觉融合的机器人操作方法与流程

1.本发明涉及机器人控制技术领域，具体来说，涉及一种基于视觉听觉融合的机器人操作方法。

背景技术：

2.近年来，随着人工智能技术的不断发展，各种先进的算法都被集成到机器人上，使得机器人更加的智能化。越来越多的行业可以看到服务机器人应用于生产生活，如医疗机器人、酒店送餐机器人、物流运输机器人等，这也导致了人们对机器人提出了更高的要求，开始逐步要求机器人不断的理解现实世界的场景，甚至是能够根据人类的自然语言指令完成任务。但是，人类的自然语言包含着不确定性，现实场景也是复杂多变的，仅仅单一模态的数据只能使机器人完成定向简单的任务，对于不同的目标的操作任务，就需要特定的传感器收集更多信息应对不同的任务场景和操作需求。因此，构建一个多样化、智能化的机器人系统是当下社会迫切需求的，这将极大提高机器人的利用率和使用效率。
3.而目前先进的人工智能技术大都应用在仿真环境的机器人中，例如具身智能问答系统，主要技术手段是利用标注好的视觉图像场景和自然语言问题建立数据库问答对，并且设定先验知识构建认知模型完成具身问答任务。目前的具身智能机器人系统主要局限于仿真环境，对于机器人在仿真环境进行各项模拟实验来说，通过各项设备的理想性大大的避免了数据的收集成本以及保证了整个机器人实验的稳定性，因此有助于整个实验过程的顺利，但是对于真实世界的机器人学习探索来说，存在巨大的物理限制，鲜有应用多模态信息在机器人上研究。当面对多个场景目标时，人类的自然语言往往包含着高级语义信息，机器人对于此只能实现简单语言信息处理和反馈，无法精准定位目标。而且在现实物理环境中，存在着复杂多变的任务需求，依靠单模态信息不足以完成所有任务，对于多个模态信息，现有技术中缺乏能够实现同一机器人收集不同模态处理的能力的系统。对于真实的物理系统，现有方法也不能无限制验证其系统功能。

技术实现要素：

4.针对相关技术中的上述技术问题，本发明提出一种基于视觉听觉融合的机器人操作方法，能够克服现有技术的上述不足。
5.为实现上述技术目的，本发明的技术方案是这样实现的：一种基于视觉听觉融合的机器人操作方法，包括以下步骤：s1生成视觉场景图像：收集物理操作平台的场景图，场景图由物体的位置关系、物体的属性关系、和其他特定物体的关系分为三类场景图，采用数据增强方法，对三类场景图进行裁剪、旋转、变形、缩放，得到增强后的三类场景图像（）；s2生成自然语言操作指令：构建自然语言生成函数，由s1得到的三类场景图像根据语言生成函数生成对应的三类型的自然语言操作指令（），指令中包含物体的位置关系、属性关系以及和其他物体的关系；
s3构建听觉数据集：由机械臂的不同姿态设定四种类型的摇晃动作，由四种摇晃动作收集12类物品的音频数据s，采样频率设置为44100hz，采集时长为6s；s4构建指示表达模型：将s1和s2生成的场景图像i和自然语言操作指令e送入指示表达模型中，得到关于自然语言指令中涉及的图像的相关目标或者区域；s5构建听觉预测模型：利用s3的音频数据提取其音频特征，构建双向gru网络分类器，包括以下步骤：s51将s3的原始音频信号送入高通滤波器中，提高高频信号分量、滤除低频噪声，补偿的高频分量变换如下：，其中是滤波系数，t是时刻，取值范围为0.95~0.97；s52将步骤s51音频信号进行分割，每段取20ms，利用汉明窗进行分帧，把每一帧的信号乘以窗口函数，获取加窗后的信号，防止信号泄露，增加后续傅里叶变换的频率空间信号的信噪比：，其中n是窗函数的宽度；s53对加窗后的音频信号进行短时傅里叶变换，得到信号在频率上的分布，将其在能量谱上应用梅尔尺度滤波器组，获取对数频率尺度的特征，梅尔尺度m和频率尺度f转换关系：，其中f取采样频率44100hz，m最低值取0，梅尔滤波器组为：，其中，m代表第m个滤波器，自变量k代表横轴坐标，f(m)代表第m个滤波器的中心点的横坐标值；s54将提取的分帧信号功率谱梅尔滤波后的特征进行一次离散余弦变换，并把信号特征减去信号对于时间的平均，得到去均值后的特征，即梅尔倒谱系数特征；s6构建听觉识别器：将s54提取的梅尔倒谱系数特征送入双向gru中，生成细粒度的音频特征，增加一条残差边将mfcc特征与输出的细粒度音频特征相连，将相连的特征经过全连接层后添加relu函数作为非线性激活函数的激活层，并且添加一层2*2大小池化核进行最大池化，将池化后的特征压平继续进行经过全连接层提取特征，将提取后的特征添加softmax函数进行分类，分类取12类；s7构建操作模型：根据机器人末端姿态不同的旋转角设定机器人的动作空间{拿，
旋转，摇晃1，摇晃2，摇晃3，放置}，给对应的动作封装成可以操控机械臂的各个函数；s8重复s5-s7，循环生成多个机械臂的动作序列，实现基于听觉视觉融合的机器人操作方法。
6.进一步的，所述s1中增强后的三类场景图像的尺寸为416*416*3，并对其进行归一化处理。
7.进一步的，所述s4包括以下步骤：s41构建一个图像特征提取网络，该网络由残差网络和特征金字塔网络组成，首先将场景图像经过一个卷积核大小为3*3步长为2的卷积获取图像特征，将图像特征进行一次1*1步长为1的卷积和3*3步长为1的卷积之后在与原先的图像特征进行相加得到图像残差特征，每一个卷积部分都使用了批标准化以及leaky relu激活函数作为非线性函数的激活层；s42重复s41的残差特征提取过程5次，获取不同大小的残差图像特征，后三层残差图像特征大小分别为p1（52，52，256），p2（26，26，512），p3（13，13，1024），对p3进行5次卷积以及上采样与p2进行相加，得到更新后的p3特征，大小为（13，13，512），与p2相加后的特征继续进行5次卷积得到更新后的p2特征（26，26，256），并且进行上采样与p1进行相加之后继续进行5次卷积得到更新后的p1特征（52，52，128），利用卷积核大小为1*1步长为1的卷积将p1,p2,p3特征通道数进行调整，得到不同尺度的特征 (52,52,75)，（26,26,75)， (13,13,75)；s43构建语言特征提取网络，使用双向gru网络对自然语言操作指令中的单词进行编码，然后使用自注意力机制为每个单词在句子中的重要性赋予权值，权值越大表明该单词越重要，获取语言独热向量特征：，其中，为操作指令i中的单词，t代表句子中的单词序数，one-hot是将单词转换成独热向量的格式，将独热向量送入双向gru网络中，获取隐藏状态特征：，，，其中，是将单词正序输入模型中的特征，是将单词逆序输入模型中的特征，为两者特征的拼接，将自然语言指令e按照注意力权重分成三类成分，分别表示主语成分、位置成分以及关系成分，根据不同成分设定句子的注意力权重：操作指令的特征向量由其提取的权重与进行加权和得到：，
将不同单词成分的三类特征进行拼接获取最终的文本指令特征；s44将s42和s43得到的图像特征和文本指令特征进行融合：，其中为非线性激活函数leaky relu，和为对应向量的学习参数，为点乘，对与不同尺度的图像特征，利用上采样将其映射到相同的维度进行融合；s45利用目标检测器提取出现的候选特征区域，将步骤s44的融合特征与其进行匹配，计算注意力权重t，得到得分最高的区域作为最终的目标区域：，其中和是对应向量的学习参数，和是对应的偏置系数，为矩阵相乘，是相应的激活函数，之后获取相应的概率分布系数与融合特征进行匹配的得到候选区域，最终取得分最高的区域作为最终的目标区域，其中为取两者得分最高，最终生成的目标区域用一个组合向量{tx, ty, tw, th}表示，分别代表了预测框的坐标及尺寸。
8.进一步的，所述s7包括以下步骤：s71根据s1生成的场景设定场景状态{瓶子1，瓶子2，瓶子3，碗1，碗2}；s72利用s45生成的视觉坐标控制机械臂的行为，并且根据s6的判别结果，调用动作空间中的完成剩余行为，最终生成机械臂的动作序列；s73设定场景中目标状态池，结合目标检测器和听觉识别器更新目标状态。
9.进一步的，所述s53中滤波器组取40个，中心频率点响应值为1。
10.本发明的有益效果：本发明的基于视觉听觉融合的机器人操作方法通过构建视觉定位模型和听觉检测模型集成到机械臂的操作模型上，使得机器人系统不仅能够获取视觉上的信息，并且能够理解自然语言中的高级语义信息定位到带有指示表达关系的目标，依靠听觉信息分辨出视觉上难以辨别的物体，执行相应的操作，实现了机械人多模态数据处理能力、机器人自主操作与环境交互的能力，提升了多模态机器人系统的交互性和智能性。
附图说明
11.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
12.图1是根据本发明实施例所述的基于视觉听觉融合的机器人操作方法的流程图；图2是根据本发明实施例所述的基于视觉听觉融合的机器人操作方法的指示表达网络架构示意图；图3是根据本发明实施例所述的基于视觉听觉融合的机器人操作方法的音频识别网络架构示意图；图4是根据本发明实施例所述的基于视觉听觉融合的机器人操作方法的硬件架构图。
具体实施方式
13.下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。
14.如图1-3所示，根据本发明实施例所述的基于视觉听觉融合的机器人操作方法，包括以下步骤：s1生成视觉场景图像：收集物理操作平台的场景图，场景图由物体的位置关系、物体的属性关系、和其他特定物体的关系分为三类场景图，采用数据增强方法，对三类场景图进行裁剪、旋转、变形、缩放，得到增强后的三类场景图像（）；s2生成自然语言操作指令：构建自然语言生成函数，由s1得到的三类场景图像根据语言生成函数生成对应的三类型的自然语言操作指令（），指令中包含物体的位置关系、属性关系以及和其他物体的关系；s3构建听觉数据集：由机械臂的不同姿态设定四种类型的摇晃动作，由四种摇晃动作收集12类物品的音频数据s，采样频率设置为44100hz，采集时长为6s；s4构建指示表达模型：将s1和s2生成的场景图像i和自然语言操作指令e送入指示表达模型中，得到关于自然语言指令中涉及的图像的相关目标或者区域；s5构建听觉预测模型：利用s3的音频数据提取其音频特征，构建双向gru网络分类器，包括以下步骤：s51将s3的原始音频信号送入高通滤波器中，提高高频信号分量、滤除低频噪声，补偿的高频分量变换如下：，其中是滤波系数，t是时刻，取值范围为0.95~0.97；s52将步骤s51音频信号进行分割，每段取20ms，利用汉明窗进行分帧，把每一帧的信号乘以窗口函数，获取加窗后的信号，防止信号泄露，增加后续傅里叶变换的频率空间信号的信噪比：，其中n是窗函数的宽度；s53对加窗后的音频信号进行短时傅里叶变换，得到信号在频率上的分布，将其在能量谱上应用梅尔尺度滤波器组，获取对数频率尺度的特征，梅尔尺度m和频率尺度f转换关系：，其中f取采样频率44100hz，m最低值取0，梅尔滤波器组为：
其中，m代表第m个滤波器，自变量k代表横轴坐标，f(m)代表第m个滤波器的中心点的横坐标值；s54将提取的分帧信号功率谱梅尔滤波后的特征进行一次离散余弦变换，并把信号特征减去信号对于时间的平均，得到去均值后的特征，即梅尔倒谱系数特征（mel-scale frequency cepstral coefficients，mfcc），这样可以有效减少线性相关，压缩滤波器系数，提高深度学习模型识别效果；s6构建听觉识别器：将s54提取的梅尔倒谱系数特征送入双向gru中，生成细粒度的音频特征，增加一条残差边将mfcc特征与输出的细粒度音频特征相连，将相连的特征经过全连接层后添加relu函数作为非线性激活函数的激活层，并且添加一层2*2大小池化核进行最大池化，将池化后的特征压平继续进行经过全连接层提取特征，将提取后的特征添加softmax函数进行分类，分类取12类；s7构建操作模型：根据机器人末端姿态不同的旋转角设定机器人的动作空间{拿（pick），旋转（roll），摇晃1（yaw），摇晃2（pitch），摇晃3（shake），放置（place）}，给对应的动作封装成可以操控机械臂的各个函数；s8重复s5-s7，循环生成多个机械臂的动作序列，实现基于听觉视觉融合的机器人操作方法。
15.进一步的，所述s1中增强后的三类场景图像的尺寸为416*416*3，并对其进行归一化处理。
16.进一步的，所述s4包括以下步骤：s41构建一个图像特征提取网络，该网络由残差网络和特征金字塔网络组成，首先将场景图像经过一个卷积核大小为3*3步长为2的卷积获取图像特征，将图像特征进行一次1*1步长为1的卷积和3*3步长为1的卷积之后在与原先的图像特征进行相加得到图像残差特征，每一个卷积部分都使用了批标准化以及leaky relu激活函数作为非线性函数的激活层；s42重复s41的残差特征提取过程5次，获取不同大小的残差图像特征，后三层残差图像特征大小分别为p1（52，52，256），p2（26，26，512），p3（13，13，1024），对p3进行5次卷积以及上采样与p2进行相加，得到更新后的p3特征，大小为（13，13，512），与p2相加后的特征继续进行5次卷积得到更新后的p2特征（26，26，256），并且进行上采样与p1进行相加之后继续进行5次卷积得到更新后的p1特征（52，52，128），利用卷积核大小为1*1步长为1的卷积将p1,p2,p3特征通道数进行调整，得到不同尺度的特征 (52,52,75)，（26,26,75)， (13,13,75)；s43构建语言特征提取网络，使用双向gru网络对自然语言操作指令中的单词进行编码，然后使用自注意力机制为每个单词在句子中的重要性赋予权值，权值越大表明该单
词越重要，获取语言独热向量特征：，其中，为操作指令i中的单词，t代表句子中的单词序数，one-hot是将单词转换成独热向量的格式，将独热向量送入双向gru网络中，获取隐藏状态特征：征：，，其中，是将单词正序输入模型中的特征，是将单词逆序输入模型中的特征，为两者特征的拼接，将自然语言指令e按照注意力权重分成三类成分，分别表示主语成分、位置成分以及关系成分，根据不同成分设定句子的注意力权重：操作指令的特征向量由其提取的权重与进行加权和得到：，将不同单词成分的三类特征进行拼接获取最终的文本指令特征；s44将s42和s43得到的图像特征和文本指令特征进行融合：，其中为非线性激活函数leaky relu，和为对应向量的学习参数，为点乘，对与不同尺度的图像特征，利用上采样将其映射到相同的维度进行融合；s45利用目标检测器提取出现的候选特征区域，将步骤s44的融合特征与其进行匹配，计算注意力权重t，得到得分最高的区域作为最终的目标区域：，其中和是对应向量的学习参数，和是对应的偏置系数，为矩阵相乘，是相应的激活函数，之后获取相应的概率分布系数与融合特征进行匹配的得到候选区域，最终取得分最高的区域作为最终的目标区域，其中为取两者得分最高，最终生成的目标区域用一个组合向量{tx, ty, tw, th}表示，分别代表了预测框的坐标及尺寸。
17.进一步的，所述s7包括以下步骤：s71根据s1生成的场景设定场景状态{瓶子1（bottle1），瓶子2 (bottle1），瓶子3 (bottle1），碗1 (bottle1），碗2 (bottle1)}；s72利用s45生成的视觉坐标控制机械臂的行为，并且根据s6的判别结果，调用动作空间中的完成剩余行为，最终生成机械臂的动作序列；s73设定场景中目标状态池，结合目标检测器和听觉识别器更新目标状态。
18.进一步的，所述s53中滤波器组取40个，中心频率点响应值为1。
19.本发明的一个实施例的硬件架构系统方法如图4所示，结合ros操作平台可以在实际物理环境下实施视听融合的操作过程，具有较好的任务性能和广泛的应用前景。
20.本发明的基于视觉听觉融合的机器人操作方法，通过引入指示表达类的目标检测器，可以根据自然语言指令中物体的位置关系、自身属性关系和其他物体的位置关系定位到具体目标，使得机器人能够理解场景和语言的高级语义信息，加强机器人应对复杂场景中的智能化操作能力；本发明的基于视觉听觉融合的机器人操作方法增加了对现实物理世界的其他模态信息处理的能力，通过构建的听觉识别判别器融合进机器人的操作模型当中，根据不同的机械臂动作收集信息并进行识别预测，解决了机器人依靠单纯的视觉信息不足以识别目标的问题，并且在听觉模型中引入残差结构，加强了听觉识别能力；本发明的基于视觉听觉融合的机器人操作方法通过各类传感器构建了一个完整的视听实验的平台，并且通过收集离线数据，可以无限制的验证系统功能，在实际环境下也进行了对比验证，实现了机器人自主操作与环境交互的能力，提升了多模态机器人系统的交互性和智能性，在未来复杂动态的工业环境下有着广泛的应用前景。
21.综上所述，借助于本发明的上述技术方案，通过构建视觉定位模型和听觉检测模型集成到机械臂的操作模型上，使得机器人系统不仅能够获取视觉上的信息，并且能够理解自然语言中的高级语义信息定位到带有指示表达关系的目标，依靠听觉信息分辨出视觉上难以辨别的物体，执行相应的操作，实现了机械人多模态数据处理能力、机器人自主操作与环境交互的能力，提升了多模态机器人系统的交互性和智能性。
22.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。