基于布尔反馈的赌博机在线学习理论与方法

基本信息
批准号:61603177
项目类别:青年科学基金项目
资助金额:21.00
负责人:张利军
学科分类:
依托单位:南京大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:徐淼,肖一驰,张杰,杨森
关键词:
近似优化赌博机在线学习布尔反馈随机投影
结项摘要

With the rapid development of information technology and the continued popularity of Internet, various types of data are increasing dramatically, and the era of Big Data has arrived. The velocity property of big data makes online learning an indispensable tool for big data analytics. Online decision making under incomplete observations is referred to as bandit online learning, which has been widely used to solve problems with weak feedbacks, including network routing, recommender system and online advertising. However, existing studies of bandit online learning mainly focus on real-valued feedbacks, and lack theoretical guarantees when applied to Boolean feedbacks, such as purchase or not, click or not, like or dislike, which are frequently encountered in real-world systems. To address this limitation, we will first investigate the generation process of binary feedbacks, develop stochastic observation theory, and propose online algorithms for parameter estimation. Based on Boolean feedbacks, we will develop bandit online learning theory for single-function estimation, and propose approximation algorithms to support continuous decision spaces. Furthermore, we will develop bandit online learning theory for multi-function estimation, and propose randomized decision algorithms to handle large-scale settings. In this project, it is expected to publish 4-6 high-quality papers, apply for 1-2 patents, and supervise 2-4 graduate students.

随着信息技术的飞速发展和互联网的不断普及,各种类型的数据资源与日俱增,大数据时代已经到来。大数据高速增长的特点使在线学习成为大数据分析必不可少的技术。其中,观测不完备情况下的在线决策被称为赌博机在线学习,广泛用于解决网络路由、推荐系统、广告投放等存在弱反馈的问题。然而,现有的赌博机在线学习主要关注数值反馈,在处理实际应用中更常见的是否购买、是否点击、是否喜欢等布尔反馈时缺乏理论保证。为解决该不足,本项目将研究布尔反馈的产生机制,形成针对布尔反馈的随机观测理论,提出在线参数更新算法;在此基础上,利用布尔反馈,建立针对单函数估计的赌博机在线学习理论,提出近似优化算法,支持连续决策空间;并进一步发展针对多函数估计的赌博机在线学习理论,提出随机决策算法,支持大规模函数估计。本项目研究可望产生高水平论文4-6篇,申请专利1-2项,培养2-4名研究生。

项目摘要

赌博机在线学习是处理大数据的重要技术手段,被广泛用于网络路由、推荐系统、广告投放等存在弱反馈的应用场景。然而,现有的赌博机在线学习主要关注数值反馈,在处理实际应用中常见的布尔反馈、噪声反馈时缺乏理论保证。针对布尔反馈,本项目提出利用逻辑模型对随机观测进行建模,采用在线牛顿法更新参数,从理论上分析了参数估计的置信区域,进而依据乐观面对不确定性的原则选择最优的决策,自动在探索和利用之间折中,取得了最优的遗憾上界。在此基础上,本项目进一步考虑了广义线性模型和重尾分布,允许更多类型的反馈并能处理未知噪声,利用多目标赌博机建模多函数在线估计问题,提出能最小化帕累托遗憾的在线算法。此外,本项目还研究了随机和近似优化技术,提出了一系列高效的离线学习算法,并将快速优化应用到在线学习问题中,保证算法实时性并且不影响效果。最后,针对动态环境中存在的模型漂移,提出了能处理特征变化的在线学习算法,能最小化自适应遗憾和动态遗憾的在线学习算法。围绕上述成果,在重要国际会议和期刊上发表论文18篇,其中CCF-A类论文15篇,申请国家发明专利1项,培养研究生5名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

基于余量谐波平衡的两质点动力学系统振动频率与响应分析

基于余量谐波平衡的两质点动力学系统振动频率与响应分析

DOI:10.6052/1672⁃6553⁃2017⁃059
发表时间:2018
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
5

基于混合优化方法的大口径主镜设计

基于混合优化方法的大口径主镜设计

DOI:10.3788/AOS202040.2212001
发表时间:2020

张利军的其他基金

批准号:61573288
批准年份:2015
资助金额:65.00
项目类别:面上项目
批准号:51474239
批准年份:2014
资助金额:82.00
项目类别:面上项目
批准号:81670792
批准年份:2016
资助金额:58.00
项目类别:面上项目
批准号:60704004
批准年份:2007
资助金额:20.00
项目类别:青年科学基金项目
批准号:81100612
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目
批准号:51301208
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:61174047
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:81300206
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:81601624
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:31600135
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目

相似国自然基金

1

开放动态环境下在线机器学习理论与方法

批准号:61333014
批准年份:2013
负责人:周志华
学科分类:F0305
资助金额:290.00
项目类别:重点项目
2

基于用户反馈的多策略翻译在线融合方法研究

批准号:61272384
批准年份:2012
负责人:杨沐昀
学科分类:F0211
资助金额:80.00
项目类别:面上项目
3

面向大规模数据流的弱信息在线学习理论与方法研究

批准号:61906165
批准年份:2019
负责人:翟婷婷
学科分类:F0603
资助金额:23.00
项目类别:青年科学基金项目
4

基于智能在线虚拟参考反馈整定的控制方法研究

批准号:61304031
批准年份:2013
负责人:王灵
学科分类:F0301
资助金额:22.00
项目类别:青年科学基金项目