面向大数据的机器学习理论与方法

基本信息
批准号:61332007
项目类别:重点项目
资助金额:300.00
负责人:朱小燕
学科分类:
依托单位:清华大学
批准年份:2013
结题年份:2018
起止时间:2014-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:张钹,朱军,黄民烈,胡晓林,郝宇,陈蓓,李巍,肖寒,朱星玮
关键词:
自适应学习粒度抽象知识深度学习机器学习
结项摘要

With the fast growth of Internet, Big Data is becoming a new trend in the frontier of the technology and economic development and has raised new challenges for scientists. Because of its high noise, great structure variety, and fast evolving velocity, Big Data is hard to be handled using either the traditional methods that follow the 'observation-hypothesis-testing'-type paradigm of scientific research or the existing data-driven methods with a base on the solid probability and statistic theories. Therefore, in order to effectively analyze Big Data and timely discover the underlying useful information, it is imperative to develop a new set of machine learning theories and methods that can meet the requirements of data intensive analysis tasks. To systematically investigate and build such a set of theories and methods, this project proposes to carry out the following three themes of work: 1) develop new theories and computational methods for learning hierarchical latent representations to reveal the essential properties and patterns underlying Big Data; 2) develop machine learning algorithms and strategies that automatically adapt according to the fast and diverse changes of Big Data; and 3) apply the new learning theories and algorithms to image content analysis and understanding and develop a prototype platform to demonstrate and prove their effectiveness. With a systematical investigation and combination between theories and practical applications, this project aims to develop a new set of machine learning theories and algorithms that can deal with Big Data effectively. With the accomplishments of this project, we expect to make breakthrough contributions on some key technologies of hierarchical latent representation learning and adaptive learning in the Big Data environment, and develop a prototype platform for intelligent image and video content analysis and to provide information service.

互联网发展带来的海量数据,引领了科技与经济发展新的趋势,提出了新的挑战。大数据具有的噪声大、结构复杂多样、变化快等特点,是传统的观察-假设-检验的科学方法,以及现有基于概率统计的数据驱动理论与方法都难以应对的。亟需发展一套面向数据密集的新计算理论与方法,才能对大数据进行有效的处理,并从中及时发现有用的信息。为探讨这样的理论与方法,本项目申请设置了以下3个研究内容:1)多粒度隐层表示的学习理论与方法,以充分挖掘大数据背后隐含的本质规律与特性;2)大数据环境下自适应学习方法与学习策略,以应对大数据快速多样的变化;3)建立大规模图像内容分析与理解应用平台,以验证基础理论和方法的有效性。本课题通过理论和应用的结合,旨在发展与创立应对大数据复杂环境的机器学习理论与方法,预期在大数据处理多粒度隐层表示特征学习、自适应学习等方面取得关键技术的突破,实现海量图像和视频智能处理、信息服务原型系统平台。

项目摘要

本项目针对大数据噪声大、结构复杂多样、变化快等特点开展了3个方面的研究:.1)在大数据隐含特征学习方面,从理论基础研究和应用基础研究两方面开展了研究。在理论方面,提出了在线正则化贝叶斯推理、核正则化贝叶斯、鲁棒正则化贝叶斯等基础理论和方法;发展了高效的分布式贝叶斯推理算法,及其网络链接预测、网络推荐等复杂场景下的学习方法。应用基础方面,针对大数据中文本与知识的表示学习问题,提出了在神经网络模型中嵌入语言学知识的递归自编码模型、树型长短期记忆模型、语言学知识正则的长短期记忆模型;在结构化知识表示层面,提出了产生式的知识嵌入模型transG,考虑文本信息的SSP,流型嵌入的ManifoldE。在基于大规模数据语言生成方面,针对生成内容的语义性、一致性、交互性等问题,从类别控制、句式控制、信息量控制、知识利用、逻辑性等方面进行建模,并广泛应用在文本摘要、对话生成、广告文案生成、故事生成等任务中。.2)在大数据自适应学习方面,提出了考虑领域监督信息和类别监督信息的自编码模型。针对弱监督、非直接监督信号的任务,研究了基于强化学习的系列方法,包括数据子结构发现,样本去噪,样本标记自纠正,多智能体合作式学习。所提出的多智能体合作式学习模型用于优化淘宝产品搜索的在线系统,每日稳定增收达到数千万元。.3)在大规模图像内容分析与理解方面开展了系列研究。提出了一个高度并行化的面对网络图片处理的算法框架,用于在分布式计算系统上同时解决部分重复图像的发现和视觉模式的表示两个问题。从图的角度提出了一个适用于大规模数据的挖掘方法,同时建模了实例层面的相似性和图像层面的上下文关系。建立了亿级规模的人脸照片数据库,及人脸查询系统,在亿级底库上实现了百级并发查询的秒级返回,满足了政府机关的实际需求。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

朱小燕的其他基金

批准号:41302032
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:69982005
批准年份:1999
资助金额:14.00
项目类别:专项基金项目
批准号:81400916
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:21706089
批准年份:2017
资助金额:23.00
项目类别:青年科学基金项目
批准号:60272019
批准年份:2002
资助金额:24.00
项目类别:面上项目
批准号:60973104
批准年份:2009
资助金额:30.00
项目类别:面上项目
批准号:31500717
批准年份:2015
资助金额:22.00
项目类别:青年科学基金项目
批准号:60572084
批准年份:2005
资助金额:25.00
项目类别:面上项目

相似国自然基金

1

面向大数据的随机森林机器学习理论与算法研究

批准号:61602482
批准年份:2016
负责人:张英华
学科分类:F06
资助金额:21.00
项目类别:青年科学基金项目
2

面向图像语义理解的对抗机器学习理论与方法

批准号:61876130
批准年份:2018
负责人:韩亚洪
学科分类:F0604
资助金额:64.00
项目类别:面上项目
3

面向弓网大数据的高铁在途运行安全机器学习理论与算法

批准号:61702518
批准年份:2017
负责人:周夏冰
学科分类:F06
资助金额:26.00
项目类别:青年科学基金项目
4

面向翼型基于机器学习理论的湍流建模方法研究

批准号:91852115
批准年份:2018
负责人:张伟伟
学科分类:A0910
资助金额:99.00
项目类别:重大研究计划