子采样排序与相关熵排序的学习理论研究

基本信息
批准号:11671161
项目类别:面上项目
资助金额:48.00
负责人:陈洪
学科分类:
依托单位:华中农业大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:邓小炎,潘志斌,熊慧娟,杨文宇,宋必芹,刘绍轩,袁佩佩,沈世健,来会会
关键词:
学习理论信息理论学习子采样学习算法泛化能力
结项摘要

In this project, we will study the mathematical theory of learning to rank. Considering the computation difficulty of ranking with a large number of data, we introduce Nyström approximation and Markov sampling approaches for the ranking model and provide the fast optimization algorithms. We focus on the study of learning theory foundations of the subsampling ranking, and provide the theory analysis including consistency and convergence rate in terms of error analysis associated with the operator approximation and the capacity estimation of assumption space. This study will demonstrate the role of sampling method on generalization ability and computation complexity. Meanwhile, considering the non-Gaussian noises and outliers of the ranking data, we introduce the information theoretic learning to the ranking problem and construct the ranking model under maximum correntropy criterion, and provide the theory analysis on its generalization ability and robustness. Finally, the proposed algorthms are applied to bioinformatic data, and their effectiveness is verified on the drug discovery and the protein homology detection. This project is expected to break through the limitation of traditional ranking for a large number of data, and establish the mathematical foundations of learning to rank.

本项目研究排序机器学习的数学理论基础。针对大规模数据下排序算法的计算难题,将Nyström逼近和Markov采样引入排序学习模型,构建快速排序算法,重点探讨其学习理论基础,分别利用基于容量估计和基于算子逼近的误差分析方法建立其一致性和收敛速度的分析,阐明采样方法对排序学习泛化能力和计算复杂性的影响机制。同时,针对数据中非高斯噪声和噪点问题,将信息理论学习引入排序模型,构建基于最大相关熵准则的排序学习算法,探讨其泛化能力和鲁棒性能。最后,将设计算法应用于生物信息数据,探索其在药物发现和蛋白质同源检测等排序任务中的有效性。本项目期望在面向大规模数据的排序算法设计和数学理论分析方面取得突破,建立排序机器学习的数学理论基础。

项目摘要

本项目对正则排序相关算法的学习理论与应用进行了深入的研究。项目组按照研究计划,有序推进研究工作,圆满完成了研究目标。主要研究成果包括三个部分:一是建立了几类正则排序算法学习率的刻画,分析了分布式、去偏置及交互策略对泛化能力的影响,通过数据实验验证了相关策略提升计算效率和预测性能的有效性; 二是证明了基于Nyström采样和Markov采样正则学习算法的误差界,阐明了采样机制与计算复杂性、泛化性的关系;三是设计了几类稀疏可加模型,给出了其泛化误差界和变量选择一致性分析,并在高维数据挖掘中验证了其良好的性能。本项目相关研究不仅发展和丰富了排序学习的数学基础,也为大规模数据情形的算法设计和应用提供了理论指导。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

祁连山天涝池流域不同植被群落枯落物持水能力及时间动态变化

祁连山天涝池流域不同植被群落枯落物持水能力及时间动态变化

DOI:10.13885/j.issn.0455-2059.2020.06.004
发表时间:2020
2

卫生系统韧性研究概况及其展望

卫生系统韧性研究概况及其展望

DOI:10.16506/j.1009-6639.2018.11.016
发表时间:2018
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018
5

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015

陈洪的其他基金

批准号:11875226
批准年份:2018
资助金额:50.00
项目类别:面上项目
批准号:10147208
批准年份:2001
资助金额:8.00
项目类别:专项基金项目
批准号:11175146
批准年份:2011
资助金额:50.00
项目类别:面上项目
批准号:31171661
批准年份:2011
资助金额:61.00
项目类别:面上项目
批准号:21777045
批准年份:2017
资助金额:65.00
项目类别:面上项目
批准号:11001092
批准年份:2010
资助金额:18.00
项目类别:青年科学基金项目

相似国自然基金

1

基于用户评价准则的排序学习算法及理论研究

批准号:61203298
批准年份:2012
负责人:兰艳艳
学科分类:F0603
资助金额:26.00
项目类别:青年科学基金项目
2

两阶段物流排序和工件可拒绝排序理论研究

批准号:10901142
批准年份:2009
负责人:录岭法
学科分类:A0406
资助金额:16.00
项目类别:青年科学基金项目
3

排序与半监督学习的误差分析

批准号:11501380
批准年份:2015
负责人:陈珩
学科分类:A0205
资助金额:18.00
项目类别:青年科学基金项目
4

组排序学习方法的研究与应用

批准号:61402075
批准年份:2014
负责人:林原
学科分类:F0211
资助金额:24.00
项目类别:青年科学基金项目