With the rapid development of Internet, internet of things, cloud computing technology, and with the popularization and construction of intelligence terminal, network society, digital earth and other applications, global data have shown the explosive growth trend. For example, in 2011, global data was up to more than 1.82ZB. According to the forecast of Internet Data Center (IDC), global data will increase 50 times in 2020. That the age of big data is coming is not in doubt. How to find the value information from Big Data is the question and challenge, which is faced for all walks of life. . To find the value information from Big Data better, we introduce the method and ideal of selective sampling from the big dataset and then use the online learning method with selective sampling to find the value information based on many years' study on the theory and algorithms of machine learning. The goal of this project is to establish the theoretical framework of online learning with selective sampling by studying the generalization ability, algorithmic stability of online learning algorithms. We will establish the selective sampling method that has better learning properties such as better generalization ability, better stable property, lower algorithmic complexity and faster calculating speed at first, and then research the online learning algorithms based on selective sampling, at last apply these researches' results to the application domains of data mining for Big Data. Our aim is to present some new techniques and new methods of data analysis for the data mining of Big Data...
随着互联网、物联网、云计算等技术的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,仅在2011年就达到1.82ZB。据互联网络数据中心预计,到2020年全球数据量将增加50倍。毋庸置疑,大数据时代已经到来。如何挖掘出大数据中有价值的信息是各行各业将要面临的问题和挑战。在多年来对机器学习理论和算法研究的基础上,我们提出了对大数据集进行选择性抽样,然后用基于选择性抽样的在线学习算法来挖掘大数据集中有价值信息的思想和方法。本项目旨在通过研究选择性抽样方法与选择性抽样下在线学习算法的泛化性能、稳定性等理论的基础上,建立基于选择性抽样的在线学习理论框架,进而发展出具有比较好的泛化性和稳定性、算法复杂度低、处理速度快的选择性抽样方法和基于选择性抽样的在线学习算法,从而应用到大数据挖掘的实际问题中,为大数据挖掘提供新技术和新方法。
在本项目中,我们从理论和算法两个方面对基于马氏选择性抽样的在线学习算法进行了系统研究:在理论研究方面,我们界定了基于马氏选择性抽样的在线支持向量机分类算法的泛化性能,证明了基于马氏选择性抽样的在线支持向量机分类算法是一致的,建立了基于马氏选择性抽样的在线支持向量机分类算法的收敛速率。这些理论研究成果不仅为基于马氏选择性抽样的在线支持向量机分类算法的设计提供了理论保障,而且丰富、完善和发展了经典的机器学习理论。在算法研究方面,我们不仅设计出了基于马氏选择性抽样的在线SVMC算法,而且将“在线学习”与“离线学习”相结合而设计出了基于多次马氏选择性抽样的SVMC算法,这些算法为大数据的挖掘提供了新方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于马氏抽样的机器学习理论与算法研究
大数据环境下基于马氏重抽样的分布式集成学习的理论与算法
不均衡故障数据下基于免疫过抽样SVM算法相关问题研究
开放动态环境下在线机器学习理论与方法