Object detection is one of the most essential and fundamental research topics in computer vision and pattern recognition. The current popular object detection algorithms are mostly based on hand-crafted topology structure, e.g., tree structure based part based model. These models have achieved proposing results on the widely acknowledged benchmark datasets and challenges. But these hand-crafted topology structure models suffer from the weakness that the predefined fixed topology structure cannot capture the essential structure property of the objects. In this proposal, we will study the visual structure representation for object detection systematically. First, we will reveal the scientific content and definition of visual structure and then derive the computational methodology for visual structure. Second, we will learn the object category’s structure topology and its corresponding model parameters. The final object structure parsing will be obtained by the proposed adaptive structure inference algorithm. The proposal will make use of the graph model to model the object category’s structure and realize the adaptive subgraph based structure inference. The project will absorb the cognitive laws and build up the computational model to improve the model’s ability and precision of structure representation. Finally, it will improve the performance of object detection and recognition promisingly. This project is both highly theoretical and practical.
物体检测是计算机视觉与模式识别中的基本问题之一。目前主流的物体检测方法都是基于手工指定的结构拓扑模型,如树状结构模型。这一类方法在当前主流数据库和竞赛中都取得了较好的性能。但是这类结构拓扑模型有着其先天不足,即它们不能客观反映出目标类的最本征结构属性。本项目拟对物体检测中的视觉结构表达进行系统研究,首先对视觉结构的科学内涵与定义进行深入研究,并提出相应的计算范式;其次结合自底向上的数据驱动和自顶向下的知识驱动方式学习目标类的结构拓扑及其参数;最后实现自适应物体结构推理。由于图模型具有强大的结构建模能力,本项目将主要利用图模型对物体视觉结构进行建模分析,并实现自适应子图结构推理。本项目充分借鉴认知规律,建立可计算视觉结构模型,从而提高模型的结构表达能力和精度,有望显著提高物体检测、识别等视觉任务的性能,具有很强的理论性和实用性。
物体检测是计算机视觉与模式识别中的基本问题之一。主流的树状结构模型有着先天不足,并不能客观反映出目标类的最本征结构属性,本项目以物体检测中的视觉结构表达为研究切入点,从视觉结构的物理内涵与科学定义,到数据驱动的物体拓扑结构建模到高效的视觉结构推理进行了深入的理论算法研究。基于这些理论算法成果,我们进一步将视觉结构表达的一些原理启发应用于一系列图像分析任务。首先,本项目提出了关于视觉结构的基本物理内涵和科学定义,给出了视觉结构研究的计算方法。接下来,我们针对此前主流的树结构模型中仅仅考虑局部连接结构关系的局限,我们利用数据驱动的方式打破树模型的突破,得到带环状的拓扑结构模型,进而提出近似的消息传递方法实现结构推理。针对后处理问题,亦提出了一种新的基于对称结构的非极大值抑制的算法,显著提升了检测性能。在视觉结构推理阶段,我们提出了广义Range swap算法(GRSA)和广义的多标号移动推理算法,对结构模型进行快速高效地推理。针对视觉结构建模中的二维随机场结构特性,我们进一步提出了快速的标号下降结构推理算法。基于提出的视觉结构计算方法以及相关的结构建模推理理论算法,我们进一步将其应用到图像分割、多模态场景分类、零样本物体识别等中去。在图像分割中,我们提出将图像上下文结构与高层语义信息相结合,与低层图像纹理结构信息相辅相成,取得了很好的效果。在多模态场景分类中,提出多模态信息结构化融合及保持机制,提升了场景分类性能。在零样本物体识别中,提出了语义信息与视觉信息结构保持的端到端的识别系统,大幅提升了零样本物体识别基准。本项目按照预订研究计划执行,在国际学术会议和期刊上发表论文12篇,其中口头报告5篇,国际顶级会议文章(CVPR/ICCV/AAAI/IJCAI) 5篇,4篇国际主流会议,1篇国际顶级期刊,1篇国际核心期刊,1篇国际主流期刊,申请发明专利4项,协助培养博士毕业3名,硕士毕业1名,仍在读博士生4名,达到并超出预期研究成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于被动变阻尼装置高层结构风振控制效果对比分析
基于改进LinkNet的寒旱区遥感图像河流识别方法
二维FM系统的同时故障检测与控制
血管内皮细胞线粒体动力学相关功能与心血管疾病关系的研究进展
基于SSR 的西南地区野生菰资源 遗传多样性及遗传结构分析
基于深度学习的视觉显著物体检测与跟踪
基于物体窗口深度表达的目标分类与检测
基于图像属性和深度学习的大规模物体检测研究与应用
基于深度学习的复杂图像显著物体检测方法研究