The complexity of recognition problem is the variety of data resource, form and distribution in practical application. How to learn the similarity measure from data (or extract the effective features equally) is the difficult and key point. So far, the available similarity learning approaches can not fully exploit all kinds of information, a unified frame and the corresponding parallel learning method are urgently needed. This project mainly focuses on studying the probabilistic similarity measure learning method, which can fully use the date distribution feature of the data, hidden information and classification labels. The parallel learning method suitable for large data processing is also studied. Firstly, the feature mappings will be constructed using the data distribution, hidden variables and classification label information that existing in the probabilistic generating model. Furthermore, how to build the probabilistic similarity functions will be studied based on the constructed feature mapping. Additionally, with regard to the similarity learning problem of the large data, we study the parallel optimization algorithm and make it applicable to practical problem.
实际问题中,识别问题的复杂性主要是数据来源、形式和分布的多样性,如何从数据中学习相似度度量(或等价地提取有效特征)是识别问题的难点和关键。目前相似度学习方法,缺少充分利用各种信息的统一的方法框架与相应的并行学习算法。针对这些限制和不足,本项目将研究能充分利用数据分布、隐含信息、类标签信息的概率相似度及其学习方法,以及研究适应于大数据处理的并行学习方法。首先研究如何充分利用概率产生式模型中的数据分布、隐变量以及类标签信息构建特征映射。进一步,在特征映射的基础上研究如何构建相似度函数并进行学习。此外,针对数据规模较大的相似度学习问题,研究并行优化算法,使之能直接应用于实际问题。
相似度学习是计算机视觉和人工智能领域重要技术手段之一,在信息检索、预测和识别领域都有重要应用。传统方法采用预先定义的相似度函数衡量图像、文本等信息的相似度,没有考虑数据的分布信息以及和数据相关的标签信息,因此缺乏自适应能力。. 针对现有方法的不足,本项目开展研究,主要研究内容和取得的进展包括:(1)研究了不同数据的概率产生式模型的选择问题,根据具体问题设计概率产生式模型,导出概率相似度函数进行图像检索。与通常的图像数据相比,人脸数据具有良好的可对齐性,具有一致的结构。以此为基础设计分部式稀疏成分分析模型,对人脸数据建模,该模型结合了稀疏成分分析的鲁棒性和分部式算法的灵活性。并基于该产生式模型导出了编码数据分布信息和隐变量信息的分数函数和相似度函数,用于小样本人脸检索,该模型可胜任大规模数据的实时计算。(2)研究了基于产生式分数空间方法导出分数函数时,挖掘数据标签信息,提出了一种可应用于当前产生式分数空间的扩展,以在导出特征映射和相似度函数时利用标签信息。推导出的方法的形式简单并且直观。该研究不需要联合优化产生式模型和分类器,计算效率非常高,可应用于大规模数据检索,有效提高检索和识别的性能。(3)研究了概率相似度函数的判别式学习方法,在优化概率产生式模型的同时优化使用该相似度函数的目标任务性能,学习出的概率相似度函数对数据有很好的适应能力,可有效提高检索系统的性能。(4)研究了基于深度学习模型的特征提取和相似度学习问题,并应用于字幕生成和图像检索。上述研究成果从数据的分布角度考虑了概率相似度的学习问题,可以提高图像、文本等信息的检索性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于FTA-BN模型的页岩气井口装置失效概率分析
基于PLC-IP3-Ca2+/NO-cGMP-PKG信号通路的半夏泻心汤防治糖尿病胃轻瘫的机理研究
分子伴侣Calnexin/Calreticulin和Erp57在流感病毒HA蛋白成熟过程中的作用研究
适应大数据处理的概率特征映射研究
基于深度学习的句子相似度计算研究
复杂结构数据的相似度学习及其应用研究
基于层级多模态的深度相似度学习方法研究