In the era of big data, the co-existing of multiple types of heterogeneity and rarity is one of the major challenges faced by many highly important real-world machine learning applications, such as click fraud detection, malicious insider detection, online social media analysis, defect detection in semiconductor manufacturing, brain image analysis, etc. Multiple types of heterogeneity include task-, view-, instance-, label-, and oracle-heterogeneity, and rarity could be in terms of rare category, outlier, imbalance, etc. However, most of existing work focus on single type of heterogeneity or rarity. Therefore, we introduce a number of novel problems in which multiple types of heterogeneity and rarity co-exist. Then, various novel models are proposed to effectively leverage both heterogeneity and rarity, such as bipartite-graph-based multi-view multi-task learning framework, triple-graph-based multi-view multi-task learning framework, multi-view multi-task learning model based on border-degree, etc. Furthermore, starting from these typical problems, we plan to build a principled and unified framework to learn from multiple types of heterogeneity and rarity simultaneously. At the same time, theoretic analysis with respect to the Rademacher complexity, generalization error bound, PAC learnability, and etc. are investigated so as to reinforce the theoretical basis for the field of heterogeneous machine learning.
随着大数据挖掘的兴起,许多重要的机器学习应用系统面临着多重异构性和稀缺性并存的挑战,例如:搜索引擎欺诈点击检测、内部恶意行为检测、在线社交媒体分析、半导体芯片生产缺陷检测、大脑图像分析等。异构性包括任务、视图、实例、标签、神谕异构等;稀缺性包括稀缺类、异常点、不平衡性等。而目前的研究大都是针对单一的稀缺性或异构性问题。为此,我们提出了一系列新颖的多重异构性和稀缺性并存的研究问题,并且提出了新颖的模型算法,例如:基于二部图的多视图多任务多示例学习模型、基于三部图的多视图多任务多示例学习模型、基于边界度的多视图多任务学习框架等。以此为突破口,我们希望通过本研究,建立一个统一的多态异构机器学习算法框架,以适用于各种不同的异构性和稀缺性并存的问题。同时,从Rademacher复杂度、泛化误差边界、PAC可学习性等角度,对多态异构机器学习算法进行深入的理论分析,以夯实多态异构机器学习领域的理论基础。
异构性和稀缺性是许多机器学习和数据挖掘应用系统面临的两大挑战。如何有效地挖掘异构性和稀缺性,以提升机器学习系统的泛化性能,是多态异构机器学习亟待解决的关键问题。我们针对异构机器学习领域的不同类型的数据异构性和稀缺性并存的问题进行了深入研究,提出了一系列创新的算法模型,包括:基于结构稀疏性的多任务函数回归模型、基于协同筛选的函数-函数回归模型、基于多路特征选择的协同聚类模型、基于结构稀疏性的异构表示学习模型、基于模稀疏性的函数-函数回归模型、基于深度隐式空间的多异构学习模型、基于超图的双异构学习、针对稀有类别的多任务多视图学习模型、多任务多视图多实例学习模型等。我们进一步从机器学习复杂度和可学习性等角度对各种算法模型进行深入的理论分析,以夯实多态异构机器学习领域的理论基础。项目组取得了多项创新成果,高质量地完成了研究目标。相关的学术论文发表在数据挖掘领域的国际期刊(TKDE、TKDD、KAIS等)和顶级会议(SIGKDD、ICDM、SDM等)。项目组目前已经发表了12篇高水平学术论文,包括:CCF-A类会议论文2篇、CCF-B类会议论文5篇、CCF-A类期刊论文1篇和CCF-B类期刊论文4篇。其中,我们的基于结构稀疏性的异构表示学习的工作发表在数据挖掘国际顶级会议ICDM-2016上,并获得了最佳论文奖。我们在多态异构机器学习的研究成果有望提升互联网、工业制造、生物医药等领域的诸多核心应用(如:图像分析,多模式数据融合、基因功能预测、恶意行为检测,在线社交媒体分析,医学数据分析、半导体芯片设计和缺陷分析等)的发展水平。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
协同演化学习方法及其在数据挖掘中的应用
动态数据挖掘的构造性机器学习方法研究
高维异构数据的测度学习算法及在图像分类中的应用研究
用数据挖掘及机器学习算法进行伽玛暴分类研究