It is common that an object in real world consists of multiple patterns. Different patterns are related to different semantics, which make it inherently difficult for semantic understanding and labeling. An available approach to solve this problem is to transform it into a multiple instance learning procedure. However, there are two fundamental scientific problems that remain unsolved for this method. First, since it is difficult to describe patterns, existing techniques only focus on the influence of pattern sets on the labels, without considering influence of the pattern structure. This makes it impossible to use the structure information. Second, for the complexity of computation, existing techniques are just suitable for learning and labeling small data sets, but not suitable for large-scale data. Motivated by the above two scientific problems, there are two main themes within the proposed research: (1) Based on the statistical analysis of the impact of pattern structure on the labelling, find appropriate multi-scale kernel construction method to describe the pattern structure and build structure variance metric function. (2) Design adaptive algorithms for the approximate learning of large-scale multi-instance data labeling model based on latent support vector machines. Expected outcomes of the proposed research will provide solutions for the critical problems underlying the multiple instance data annotation, and lead to some novel techniques and fundamental theoretical basis for image understanding and subject extraction.
真实世界中的对象往往由多个模式组成,不同模式组合对应着不同的高层语义。正是这种多对多的映射关系造成了语义理解和标注的根本困难。现有的一类有效方法是将语义标注转换成多示例学习问题加以处理。然而,这一方法面临着两个重要科学问题尚未解决:现有技术只考虑模式组合对标注的影响,未考虑模式结构的影响,导致数据中关键信息未能充分利用;现有技术只适用于中小样本集的学习和标注,未解决大规模数据标注问题。以上问题严重制约了该方法的实际成效。为此,课题将开展以下研究:研究模式结构对数据标注的统计学影响,在此基础上探索语义数据的多尺度表达及核构建方法,解决模式结构描述和差异性度量问题;研究隐变量支持向量机模型的自适应求解算法,解决大规模多示例数据标注的近似学习问题。项目旨在揭示模式结构影响数据标注的本质规律,提出针对多示例数据标注关键难题的解决方案,为该方法在图像理解及主题抽取等领域的应用奠定理论基础和技术基础。
在多示例数据标注问题中,示例语义结构的刻画和学习是一个困难的问题,解决这一问题有助于提升多示例数据标注的准确性和有效性。在本项目的资助下,项目组针对多示例数据语义标注的困难问题展开了研究,重点研究多示例模式及其结构对标注的影响,研究结构化模式在有监督学习和无监督学习框架下的构建策略,并探索该方法在视觉、文本数据挖掘中的应用。主要成果是:(1)获得了一种基于多尺度时空结构刻画的学习方法,并在人群检测数据上获得了验证。(2)获得了一种基于基础示例簇连接关系的聚类方法,该方法可以改善多示例数据聚类的学习效果。(3)将所研究的算法成果推广应用到大规模微博语料下的情感实体检索系统上。围绕上述理论和应用研究目标,项目组累计发表论文10余篇,其中国内一级学报论文1篇,SCI 论文2篇;申请国际发明专利1项,申请国家发明专利1项;获得登记软件著作权1项;培养硕士研究生4人。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向大量数据的半监督支持向量机的优化方法研究
面向隐私数据保护的支持向量机新方法及其抗攻击模型研究
高维缺失数据半监督支持向量机研究
高维缺失数据半监督支持向量机研究