For mobile robot perception in dynamic environments, multimodal joint features are difficult to find since they are different regarding their data size and metrics. The aims of this project are to build word representation and to build deep learning based Multimodal Deep Boltzmann Machine model with similarity constraint.The robot performance will be improved by mapping model from visual space to semantic space.First,by transforming the task and experiences text information into vector,the similarity metric problem will be transformed to a linear programming problem.Second,the Bimodal Deep Boltzmann Machine model with similarity constraint will be built and trained to solve the joint representation problem.Finally,by adding similarity constraint,the visual information is projected into the semantic space so that robot performance will be improved and robust.The main advantages of our models are that 1) the text information can be transformed to vector in the semantic space and 2) it can be easily trained, compared by semantic similarity, and be jointly represented.The research will impact on robot learning, multi-source multimedia, commercial big data and so on.
在移动机器人感知领域,多模态联合表示由于数据维度和度量不同而难于寻找其联合特征。本项目以深度多模玻尔兹曼机以及词向量方法为理论基础,探讨如何利用相似性约束实现视觉和文本信息双模态联合表示,同时利用视觉到语义空间的映射模型,降低机器人执行任务过程中的不确定性,提高任务执行成功率和鲁棒性。首先,通过将文本的经验知识转化为词向量,将任务与经验知识之间的相似性问题转换为线性规划问题求解。其次,通过带有相似性约束的多模深度玻尔兹曼机模型,解决连续输入值情况下的视觉语义多模态联合表示问题。最后,通过构造高维图像空间到语义空间的映射模型,增加相似性约束,减少机器人对环境感知的不确定性,提高执行任务成功率和鲁棒性。该方法优点是将文本信息转换为向量空间中的向量,并可比较语义相似性,实现视觉语义信息联合表示。项目研究结果可以用于移动机器人平台,多源媒体,商业大数据领域的多模态联合表示。
在移动机器人感知领域,多模态联合表示由于数据维度和度量不同而难于寻找其联合特征。本项目针对视觉信息和文本信息的联合表示展开研究。..(1)利用词向量模型将文本信息转换为可以进行相似性衡量的词向量。进一步,可以将机器人的任务转换为优化问题求解。同时,将视觉的识别算法,与词向量的文本任务进行结合,增加相似性约束,减少机器人对环境感知的不确定性,提高执行任务成功率和鲁棒性。..(2)搭建实验场景,验证算法可行性。基于项目任务,我们搭建了“倒饮料”场景,并在仿真和真实情况下,基于PR2机器人进行了测试。类似地,我们建立了“清理餐桌”场景,其中规定机器人要按照一定用餐礼仪实现餐桌清理,如,机器人要识别是否客人用餐完毕,桌子上面是否有剩余餐具等等。桌子上标记有不同区域,使得我们能够测试机器人是否成功完成任务。..(3)基于改进的SiamRPN算法,在室内室外等典型场景实现算法验证。..(4)基于改进的YOLOv3物体识别算法,在Fetch机器人上实现目标物体识别、抓取、搬运、放下。..目前共发表SCI、EI论文10篇,出版专著2部,培养研究生5人,其中3人已经顺利毕业,2人在读。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于分形维数和支持向量机的串联电弧故障诊断方法
基于深度特征语义感知视觉字典学习的联合图像分类及对象定位方法研究
基于大数据深度语义表示学习的农业智能问答研究
基于快速视觉注意模型和深度学习的视觉跟踪
基于深度学习的层次化视觉注意模型研究