从数据中自动学习一个相似度量是机器学习的一个重要方向。以往传统的相似度学习方法要求数据具备准确的辅助信息,并且通常局限于数据只有单一的来源,比如在网页分类中,仅主要利用文本信息这一数据源来设计相似度,网页中存在的图像、视频、音频、链接等重要特征却未加利用。本研究旨在建立一种针对复杂数据的相似度学习框架。这里的复杂数据是指数据中具备不确定性甚至错误辅助信息、存在多个不同类型的数据来源且各不同数据源差异性很大(比如网页分类或电影片段分类:同一片段具备视频、语音和文字特征)、以及高维性和海量性。我们将利用最大最小概率的鲁棒学习方法,来解决不确定辅助信息学习这一关键问题,同时利用稀疏学习和多任务学习理论来解决多数据来源的问题,使得这一针对复杂数据的框架能够学习到具备稀疏性、鲁棒性和高精度的相似度量。我们将探索这一研究在复杂数据如多媒体和网页自动检索和分类中的应用,进而推动模式识别理论与方法的发展。
从数据中自动学习一个相似度量是机器学习的一个重要方向。以往传统的相似度学习方法要求数据具备准确的辅助信息,并且通常局限于数据只有单一的来源,比如在网页分类中,仅主要利用文本信息这一数据源来设计相似度,网页中存在的图像、视频、音频、链接等重要特征却未加利用。建立一种针对复杂数据的相似度学习框架式机器学习和模式识别领域的一个挑战性的课题。本项目充分考虑了数据中具备的不确定性甚至错误辅助信息、存在多个不同类型的数据来源且各不同数据源差异性很大(比如网页分类或电影片段分类:同一片段具备视频、语音和文字特征)、以及高维性和海量性等多种特性,在针对复杂数据的相似度学习方面做了大量而细致的研究和探索。为解决稀疏相似度学习的问题,本项目提出了了一种统一的度量学习框架;为解决多种数据来源的问题,本项目利用多任务学习进行了一系列的探索;为解决相似度学习的效率问题,本项目提出了一种高效的在线学习算法。此外,我们开展了一系列学术交流与合作,并利用我们的研究成果在手写识别、字符检测、图像处理等方面展开了一系列的应用探索。..本项目的研究成果包含Springer出版的英文编著2本、国际SCI索引刊物论文12篇(含录用2篇),国际会议论文15篇。其中包括机器学习和模式识别的顶级刊物或国际会议比如IEEE Trans. Pattern Analysis and Machine Intelligence (PAMI)1篇、Machine Learning 1篇,IEEE Trans. System Man Cybernetics Part B 1篇、ECML 2篇、 ICDM 3篇、 UAI1篇、IJCAI 1篇、 SIGIR 1篇。项目负责人获得2011年亚太神经网络协会的杰出青年科学家奖。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向复杂数据的稀疏流形学习方法研究
复杂结构数据的相似度学习及其应用研究
面向跨领域异构数据的患者相似性学习方法及应用
多模态对象的相似度学习方法及其应用研究