子采样排序与相关熵排序的学习理论研究

基本信息

批准号：11671161

项目类别：面上项目

资助金额：48.00

负责人：陈洪

学科分类：

依托单位：华中农业大学

批准年份：2016

结题年份：2020

起止时间：2017-01-01 - 2020-12-31

项目状态：已结题

项目参与者：邓小炎,潘志斌,熊慧娟,杨文宇,宋必芹,刘绍轩,袁佩佩,沈世健,来会会

关键词：

学习理论信息理论学习子采样学习算法泛化能力

结项摘要

In this project, we will study the mathematical theory of learning to rank. Considering the computation difficulty of ranking with a large number of data, we introduce Nyström approximation and Markov sampling approaches for the ranking model and provide the fast optimization algorithms. We focus on the study of learning theory foundations of the subsampling ranking, and provide the theory analysis including consistency and convergence rate in terms of error analysis associated with the operator approximation and the capacity estimation of assumption space. This study will demonstrate the role of sampling method on generalization ability and computation complexity. Meanwhile, considering the non-Gaussian noises and outliers of the ranking data, we introduce the information theoretic learning to the ranking problem and construct the ranking model under maximum correntropy criterion, and provide the theory analysis on its generalization ability and robustness. Finally, the proposed algorthms are applied to bioinformatic data, and their effectiveness is verified on the drug discovery and the protein homology detection. This project is expected to break through the limitation of traditional ranking for a large number of data, and establish the mathematical foundations of learning to rank.

本项目研究排序机器学习的数学理论基础。针对大规模数据下排序算法的计算难题，将Nyström逼近和Markov采样引入排序学习模型，构建快速排序算法，重点探讨其学习理论基础，分别利用基于容量估计和基于算子逼近的误差分析方法建立其一致性和收敛速度的分析，阐明采样方法对排序学习泛化能力和计算复杂性的影响机制。同时，针对数据中非高斯噪声和噪点问题，将信息理论学习引入排序模型，构建基于最大相关熵准则的排序学习算法，探讨其泛化能力和鲁棒性能。最后，将设计算法应用于生物信息数据，探索其在药物发现和蛋白质同源检测等排序任务中的有效性。本项目期望在面向大规模数据的排序算法设计和数学理论分析方面取得突破，建立排序机器学习的数学理论基础。

项目摘要

本项目对正则排序相关算法的学习理论与应用进行了深入的研究。项目组按照研究计划，有序推进研究工作，圆满完成了研究目标。主要研究成果包括三个部分：一是建立了几类正则排序算法学习率的刻画，分析了分布式、去偏置及交互策略对泛化能力的影响，通过数据实验验证了相关策略提升计算效率和预测性能的有效性；二是证明了基于Nyström采样和Markov采样正则学习算法的误差界，阐明了采样机制与计算复杂性、泛化性的关系；三是设计了几类稀疏可加模型，给出了其泛化误差界和变量选择一致性分析，并在高维数据挖掘中验证了其良好的性能。本项目相关研究不仅发展和丰富了排序学习的数学基础，也为大规模数据情形的算法设计和应用提供了理论指导。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：

发表时间：2021

DOI：

发表时间：

DOI：10.14050/j.cnki.1672-9250.2017.02.014

发表时间：2017

DOI：10.3778/j.issn.1002-8331.1903-0411

发表时间：2020

陈洪的其他基金

批准号：11875226

批准年份：2018

资助金额：50.00

项目类别：面上项目

批准号：10147208

批准年份：2001

资助金额：8.00

项目类别：专项基金项目

批准号：11175146

批准年份：2011

资助金额：50.00

项目类别：面上项目

批准号：31171661

批准年份：2011

资助金额：61.00

项目类别：面上项目

批准号：21777045

批准年份：2017

资助金额：65.00

项目类别：面上项目

批准号：11001092

批准年份：2010

资助金额：18.00

项目类别：青年科学基金项目

相似国自然基金

基于用户评价准则的排序学习算法及理论研究

批准号：61203298

批准年份：2012

负责人：兰艳艳

学科分类：F0603

资助金额：26.00

项目类别：青年科学基金项目

两阶段物流排序和工件可拒绝排序理论研究

批准号：10901142

批准年份：2009

负责人：录岭法

学科分类：A0406

资助金额：16.00

项目类别：青年科学基金项目

排序与半监督学习的误差分析

批准号：11501380

批准年份：2015

负责人：陈珩

学科分类：A0205

资助金额：18.00

项目类别：青年科学基金项目

组排序学习方法的研究与应用

批准号：61402075

批准年份：2014

负责人：林原

学科分类：F0211

资助金额：24.00

项目类别：青年科学基金项目

子采样排序与相关熵排序的学习理论研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于国产化替代环境下高校计算机教学的研究

基于铁路客流分配的旅客列车开行方案调整方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于综合治理和水文模型的广西县域石漠化小流域区划研究

新型树启发式搜索算法的机器人路径规划

陈洪的其他基金

重味强子共振谱及其衰变的唯象研究

重子结构与非微扰QCD模型(重)

强子共振态中多夸克和分子组态效应研究

脂肪酸酰化位置质谱分析及酶促酯交换反应位置选择性机理研究

硼基微孔材料的构筑及其重金属吸附位点的原子级尺度表征

基于逼近理论的半监督学习误差分析研究

相似国自然基金