基于布尔反馈的赌博机在线学习理论与方法

基本信息

批准号：61603177

项目类别：青年科学基金项目

资助金额：21.00

负责人：张利军

学科分类：

依托单位：南京大学

批准年份：2016

结题年份：2019

起止时间：2017-01-01 - 2019-12-31

项目状态：已结题

项目参与者：徐淼,肖一驰,张杰,杨森

关键词：

近似优化赌博机在线学习布尔反馈随机投影

结项摘要

With the rapid development of information technology and the continued popularity of Internet, various types of data are increasing dramatically, and the era of Big Data has arrived. The velocity property of big data makes online learning an indispensable tool for big data analytics. Online decision making under incomplete observations is referred to as bandit online learning, which has been widely used to solve problems with weak feedbacks, including network routing, recommender system and online advertising. However, existing studies of bandit online learning mainly focus on real-valued feedbacks, and lack theoretical guarantees when applied to Boolean feedbacks, such as purchase or not, click or not, like or dislike, which are frequently encountered in real-world systems. To address this limitation, we will first investigate the generation process of binary feedbacks, develop stochastic observation theory, and propose online algorithms for parameter estimation. Based on Boolean feedbacks, we will develop bandit online learning theory for single-function estimation, and propose approximation algorithms to support continuous decision spaces. Furthermore, we will develop bandit online learning theory for multi-function estimation, and propose randomized decision algorithms to handle large-scale settings. In this project, it is expected to publish 4-6 high-quality papers, apply for 1-2 patents, and supervise 2-4 graduate students.

随着信息技术的飞速发展和互联网的不断普及，各种类型的数据资源与日俱增，大数据时代已经到来。大数据高速增长的特点使在线学习成为大数据分析必不可少的技术。其中，观测不完备情况下的在线决策被称为赌博机在线学习，广泛用于解决网络路由、推荐系统、广告投放等存在弱反馈的问题。然而，现有的赌博机在线学习主要关注数值反馈，在处理实际应用中更常见的是否购买、是否点击、是否喜欢等布尔反馈时缺乏理论保证。为解决该不足，本项目将研究布尔反馈的产生机制，形成针对布尔反馈的随机观测理论，提出在线参数更新算法；在此基础上，利用布尔反馈，建立针对单函数估计的赌博机在线学习理论，提出近似优化算法，支持连续决策空间；并进一步发展针对多函数估计的赌博机在线学习理论，提出随机决策算法，支持大规模函数估计。本项目研究可望产生高水平论文4-6篇，申请专利1-2项，培养2-4名研究生。

项目摘要

赌博机在线学习是处理大数据的重要技术手段，被广泛用于网络路由、推荐系统、广告投放等存在弱反馈的应用场景。然而，现有的赌博机在线学习主要关注数值反馈，在处理实际应用中常见的布尔反馈、噪声反馈时缺乏理论保证。针对布尔反馈，本项目提出利用逻辑模型对随机观测进行建模，采用在线牛顿法更新参数，从理论上分析了参数估计的置信区域，进而依据乐观面对不确定性的原则选择最优的决策，自动在探索和利用之间折中，取得了最优的遗憾上界。在此基础上，本项目进一步考虑了广义线性模型和重尾分布，允许更多类型的反馈并能处理未知噪声，利用多目标赌博机建模多函数在线估计问题，提出能最小化帕累托遗憾的在线算法。此外，本项目还研究了随机和近似优化技术，提出了一系列高效的离线学习算法，并将快速优化应用到在线学习问题中，保证算法实时性并且不影响效果。最后，针对动态环境中存在的模型漂移，提出了能处理特征变化的在线学习算法，能最小化自适应遗憾和动态遗憾的在线学习算法。围绕上述成果，在重要国际会议和期刊上发表论文18篇，其中CCF-A类论文15篇，申请国家发明专利1项，培养研究生5名。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：2021

DOI：10.7641/CTA.2018.70969

发表时间：2018

DOI：10.1360/SSM-2020-0035

发表时间：2020

张利军的其他基金

批准号：61573288

批准年份：2015

资助金额：65.00

项目类别：面上项目

批准号：51474239

批准年份：2014

资助金额：82.00

项目类别：面上项目

批准号：81670792

批准年份：2016

资助金额：58.00

项目类别：面上项目

批准号：60704004

批准年份：2007

资助金额：20.00

项目类别：青年科学基金项目

批准号：81100612

批准年份：2011

资助金额：22.00

项目类别：青年科学基金项目

批准号：51301208

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：61174047

批准年份：2011

资助金额：60.00

项目类别：面上项目

批准号：81300206

批准年份：2013

资助金额：23.00

项目类别：青年科学基金项目

批准号：81601624

批准年份：2016

资助金额：17.00

项目类别：青年科学基金项目

批准号：31600135

批准年份：2016

资助金额：19.00

项目类别：青年科学基金项目

相似国自然基金

开放动态环境下在线机器学习理论与方法

批准号：61333014

批准年份：2013

负责人：周志华

学科分类：F0305

资助金额：290.00

项目类别：重点项目

基于用户反馈的多策略翻译在线融合方法研究

批准号：61272384

批准年份：2012

负责人：杨沐昀

学科分类：F0211

资助金额：80.00

项目类别：面上项目

面向大规模数据流的弱信息在线学习理论与方法研究

批准号：61906165

批准年份：2019

负责人：翟婷婷

学科分类：F0603

资助金额：23.00

项目类别：青年科学基金项目

基于智能在线虚拟参考反馈整定的控制方法研究

批准号：61304031

批准年份：2013

负责人：王灵

学科分类：F0301

资助金额：22.00

项目类别：青年科学基金项目

基于布尔反馈的赌博机在线学习理论与方法

{{i.achievement_title}}

暂无此项成果

其他相关文献

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

一种基于多层设计空间缩减策略的近似高维优化方法

药食兼用真菌蛹虫草的液体发酵培养条件优化

具有随机多跳时变时延的多航天器协同编队姿态一致性

现代优化理论与应用

张利军的其他基金

多水下航行器协调作业的分布优化算法研究

多元线性化合物的扩散系数矩阵、扩散生长的相场模型及其在铝合金微结构定量表征中的应用

脂滴表面蛋白Plin5在压力负荷性心肌重构中的作用及机制研究

一类非线性系统切换控制的理论研究

LSDP5在肝脏脂肪和脂滴代谢中的作用及机制研究

多元合金有序/无序相变的扩散唯象模型及其与相场模型的耦合

AUV目标跟踪的切换非线性适应控制设计理论与应用研究

肺炎衣原体感染经由IQGAP1通过削弱VE-钙粘素相关的血管内皮细胞间粘附连接促进单核细胞跨内皮迁移

一种新型3D预淋巴管化材料的制备及其治疗淋巴水肿效果的研究

基于"HCV core-ZEB相互作用促进EMT"探讨HCV感染相关性肝癌的发生机制

相似国自然基金