Large scale image annotation on the Internet, real-time detection of traffic law violation, and medical images recognition are examples of pattern classification applications which have significant impact to citizen's daily life. One of their common characteristics is that new data is added to the database time by time. Newly added data may not be sampled from the same distribution which generates existing data in the current database. Therefore, pattern classification problems must change from dealing with static training databases to non-stationary training databases. Existing generalization error models cannot deal pattern classification problems in non-stationary learning environments. It is because they are designed based on the assumption that training and testing samples are sampled from the same distribution. However, in non-stationary environments, newly added data creates problems of concept drifting and changes in distribution. On the other hand, the number of samples in each class can be different in every batch of newly arriving data, so the sample imbalance problem is unavoidable. Therefore, we propose a dynamic localized generalization error model to describe the generalization ability of neural networks in the dynamically changing pattern classification problems in non-stationary environments. Based on the dynamic localized generalization error model, we propose a dynamic change detection method, a sample selection based rebalance method, and a neural network training optimization method to enhance the classification accuracies of neural networks in non-stationary and imbalanced learning environments.
互联网上的海量图像标注、交通实时违规识别及医疗图像分类等均为对民生有重大影响的模式分类应用,它们的共同特点之一便是每时每刻都有新的数据被加入,而且新加入的数据与已存在的训练样本不一定服从于完全相同的分布,因此模式分类问题必需由以往只针对给定的静态训练样本转而适应动态变化的训练样本。现有的泛化误差模型不能适用于动态学习环境,因为它们均以给定的训练集为对象并假设训练和测试集均来自相同的分布,而动态学习环境中加入的新样本会使分布发生变化甚至产生概念漂移等问题。另外由于动态学习环境中每批次新加入的数据不一定平均分布于各个类别,所以不可避免地产生样本不平衡问题。本项目将研究一个针对动态环境的动态局部泛化误差模型来描述神经网络对于动态变化的模式分类问题的泛化能力,并基于它提出动态变化检测方法、动态样本选择的再平衡方法及训练神经网络的参数优化方法,以提升神经网络在动态及不平衡环境下的分类准确度。
互联网上的海量图像标注、交通实时违规识别及医疗图像分类等均为对民生有重大影响的模式分类应用,它们的共同特点之一便是每时每刻都有新的数据被加入,而且新加入的数据与已存在的训练样本不一定服从于完全相同的分布,因此模式分类问题必需由以往只针对给定的静态训练样本转而适应动态变化的训练样本。现有的泛化误差模型不能适用于动态学习环境,因为它们均以给定的训练集为对象并假设训练和测试集均来自相同的分布,而动态学习环境中加入的新样本会使分布发生变化甚至产生概念漂移等问题。另外由于动态学习环境中每批次新加入的数据不一定平均分布于各个类别,所以不可避免地产生样本不平衡问题。所以本项目将研究针对动态环境的动态局部泛化误差模型来描述神经网络对于动态变化的模式分类问题的泛化能力,并基于它提出动态变化检测方法、动态样本选择的再平衡方法及训练神经网络的参数优化方法,以提升神经网络在动态及不平衡环境下的分类准确度。项目主要研究了神经网络和深度网络的泛化误差模型及其敏感度度量,提出了首个深度网络的泛化误差模型及其敏感度度量,并应用到智能电网的城市间电力买卖问题和用电负荷监控中的新电器加入问题,有效解决城市间电力买卖问题中的动态样本不平衡问题和用电负荷监控中假设电器都是已知的问题,在城市间电力买卖问题上研究了针对因为城市间价格变动产生的大小类动态变化产生的概念漂移检测和应对方法。研究了动态机器学习环境中的图像检索问题,提出增量哈希和概念保存哈希等创新的方法来应对动态变化的机器学习问题,正在研究把它们推广到神经网络和深度网络的训练方法上。针对智能电网中可再生能源的生产力预测问题,研究把基于最小化泛化误差的深度网络应用到太阳能发电预测和风力发电预测等应用上,并研究基于时间序列的神经网络与其应用在文本分类问题。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向云工作流安全的任务调度方法
五轴联动机床几何误差一次装卡测量方法
动态深度与宽度神经网络的泛化误差模型
图像分类中的局部泛化误差SVM特征和样本选择方法
深度神经网络泛化理论的研究
面向复杂数据的粒神经网络模型及其泛化能力的研究