学习算法的泛化性能是机器学习理论研究的核心内容之一。到目前为止,机器学习中对学习算法泛化性能研究的几乎所有的工作都是建立在独立同分布数据这一假设下,而在市场预测、系统诊断、语音识别、生物信息学等机器学习实际应用中的数据并非是独立同分布的。因此,研究非独立同分布数据下学习算法的泛化性能具有重要的理论价值和应用前景。本项目在分析和综合机器学习理论研究的最新成果的基础上,通过理论研究和实验验证相结合,来研究非独立同分布数据下代表性学习算法的一致性、收敛速率和泛化性能,旨在建立非独立同分布数据下学习算法泛化性能的理论框架,建立控制非独立同分布数据下学习算法的收敛速率和泛化性能的归纳原则,从而设计适合非独立同分布数据的具有更好泛化性能的新算法,并将研究成果应用于生物信息学等研究领域中,为机器学习提供新的研究方法和新的研究思路。
经典的学习理论和算法都是建立在数据是独立(同分布) 的假设下, 而无论在理论上,还是实际应用上,数据是独立的假设都是非常强。基于此原因,在本项目中,我们研究了非独立同分布数据下机器学习算法的推广性能、收敛速率等机器学习理论,并对理论研究成果进行了应用研究。 主要研究内容包括:(1) 研究了混合序列下经验风险最小化算法、正则化算法的推广性能和收敛速率; (2) 因为混合序列的定义是概念性的,我们又研究了马氏链数据下经验风险最小化算法、支持向量机分类算法、正则化回归等算法的推广性能和收敛速率,建立了马氏链数据下机器学习算法最优的学习速率;(3) 对同时基于算法稳定性、空间复杂性来界定学习算法的推广性能进行了研究; (4) 在理论研究的基础上,我们提出了能明显改善经典的随机抽样下支持向量机分类、Fisher线性判别、正则化回归、在线支持向量机分类等学习算法学习性能的马氏抽样方法,并取得了比较好的基于实际数据的实验效果。到目前为止,我们已完成了项目的全部研究内容,达到了预期的研究目标。. 在本项目的资助下,我们已发表或接受待发表的相关研究论文13篇,其中IEEE Transactions regular paper 2篇,SCI二区(中科院2012年分区)收录论文2篇,SCI收录论文6篇,EI收录论文2篇,国内核心期刊论文1篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
基于SSVEP 直接脑控机器人方向和速度研究
低轨卫星通信信道分配策略
基于非独立同分布样本的统计学习理论研究与应用
大数据多视图子空间非监督机器学习理论与方法
基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究
面向大数据的机器学习理论与方法