实时流数据变系数多分类模型研究

基本信息
批准号:61472475
项目类别:面上项目
资助金额:58.00
负责人:吕晓玲
学科分类:
依托单位:中国人民大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:刘玉峰,赵俊龙,宋捷,杨虎,斯介生,肖霄,王张浩,黄笑笑,刘撷芯
关键词:
多分类模型正则化特征选择稀疏模型高维数据
结项摘要

In the age of big data, a new type of data is emerging: realtime streaming data. It's a big, high dimensional, sparse, realtime, unlimited, continuous, ordered data sequence. Study on such kind of data has become a hot topic in the area of data mining and machine learning. Varying coefficient model in mathematical statistics is a very good tool to study such kind of data. It can describe the relationship between covariates and time, expplain things' evolution patterns. Current research results are limited to theories and algorithms in small data/small world. It can't meet the need of big data. Dased on the traditional study on the varying coefficient model,this project will study on the multicategory classification methods for realtime streaming data. The new theoretical framework is a combination of mathematical statistics and information science. It include the fundamental model, stability analysis, online learning and distributed realtime computing. Finally, we will give the empirical data analyses for two real world big data.

在当前的大数据时代背景下,很多领域产生了一种新的数据形态:实时流数据。它是一个海量、高维、稀疏、实时、无限、连续、有序的数据序列。针对实时流数据的研究成为近年来机器学习与知识发现领域的热点问题。数理统计学中的变系数模型是研究该数据类型的一个很好的工具,能够详细刻画协变量与时间变量的相互关系,解释事物随时间演化的规律。但现有的研究成果还基本上局限在小数据/小世界的理论和算法,不能真正满足大数据分析的需要。本项目将在梳理传统变系数模型研究成果的基础上,主要针对实时流数据的多分类问题,从基础模型的构建、模型的稳定性、模型的在线学习与分布式实时算法开发等角度研究大数据时代背景下的数理统计学与信息科学相融合的分析实时流数据的变系数多分类模型的全新理论。并结合两个大数据应用实例提出高效、具有广泛社会应用前景与价值的操作流程。

项目摘要

本项目主要研究针对实时流数据的多分类变系数模型。主要研究内容包括,基础模型的构建、探讨模型的稳定性、开发模型的在线求解算法。我们在理论层面进行了深入的探讨,提出了针对流数据的变系数支持向量机模型。针对类别可以无限扩大的选择问题(也是一种分类模型),我们提出了有约束的选择模型。我们将基于估计稳定性的调节参数选择方法ESCV创新性的引入变系数模型的研究。模拟研究和实际数据分析都表明新的方法大大增加了变系数模型的稳定性。最后我们重点研究求解算法的问题,提出了加强多分类支持向量机模型的路径解求解算法,该方法大大提高模型的求解效率和时间。此外,我们借鉴回归分析的思想,提出基于回归的快速稀疏多分类模型,可以快速求解大型多分类问题。除了方法的理论研究,本项目所提方法在大型文本数据以及互联网企业用户数据等方面都取得了非常好的实际效果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

吕晓玲的其他基金

批准号:11504319
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目

相似国自然基金

1

高维数据的空间变系数模型研究

批准号:11271242
批准年份:2012
负责人:孙燕
学科分类:A0403
资助金额:60.00
项目类别:面上项目
2

基于应用行为模型的实时业务流分类方法研究

批准号:60903209
批准年份:2009
负责人:罗浩
学科分类:F0207
资助金额:17.00
项目类别:青年科学基金项目
3

复杂数据下变系数模型的统计推断及应用

批准号:11101119
批准年份:2011
负责人:赵培信
学科分类:A0403
资助金额:23.00
项目类别:青年科学基金项目
4

多标记文本数据流分类方法研究

批准号:61503112
批准年份:2015
负责人:李培培
学科分类:F0603
资助金额:22.00
项目类别:青年科学基金项目