Data augmentation is a widely used technique to enhance the generalization of deep neural networks (DNN) for Human Action Recognition (HAR) tasks. Most existing data augmentation methods generate new samples by handcrafted transforms. However, these methods cannot be trained with a HAR network in an end-to-end manner during training. Meanwhile, because a new sample is generated via random parameters, it results that the new sample cannot be utilized to improve the performance of the HAR network during testing. To solve those problems, the research of this topic is to propose a new data augmentation method, which can be trained in an end-to-end manner along with an HAR network. First,based on Variational Auto-encoder (VAE) and sample fusion strategy, a sample fusion network (SFN) is proposed for data augmentation, which can be trained with a HAR network in an end-to-end manner. Second, a training strategy based on EM algorithm is proposed to ensure the convergence. Meanwhile, a loss function is designed to ensure the generated sample can be utilized during testing. Third, SFN is extended to generate other modal data, which can utilize the complementarity between different modals to further improving the generalization ability of HAR network. The research of this topic can further enhance the generalization ability of deep neural network, and also enhance the generalization ability of DNN.
数据增广是提升基于深度学习的人体行为识别算法泛化能力的常用策略。目前大部分数据增广算法都是人为设计变换函数,并通过随机参数生成新样本。然而该策略具有以下不足:1) 训练时无法与深度神经网络进行端到端联合训练;2) 测试时难以利用生成样本进一步提升网络泛化能力。为了解决以上问题,本课题致力于研究能够与深度神经网络端到端联合训练的数据增广方法。首先,基于变分自编码的数据生成思想,结合样本融合策略,提出一种用于数据增广的样本融合网络,以解决问题1;其次,提出了一种基于EM算法的训练策略,保证算法的收敛性,同时设计了相应的损失函数,以解决问题2;最后,将其扩展到不同表征数据之间的样本生成,利用不同数据表征之间的互补性进一步提升人体行为识别网络的泛化能力。本课题的研究能够进一步提升深度神经网络的泛化能力,也能进一步促进人体行为识别技术的发展。
数据增广是提升基于深度学习的人体行为识别算法泛化能力的常用策略。目前大部分数据增广算法都是人为设计变换函数,并通过随机参数生成新样本。然而该策略在训练时无法与深度神经网络进行端到端联合训练;在测试时难以利用生成样本进一步提升网络泛化能力。本项目提出可端到端训练的数据增广算法,采用变分自编码数据生成思想,实现可端到端学习的数据增广算法,进而实现数据增广和人体行为识别算法的联合优化。. 项目从数据预处理、网络结构设计和损失函数优化等三个方面,开展了可变码率的可学习图像压缩、基于位平面的多尺度数据融合、时空异步数据归一化、基于变分自编码网络的数据增广网络、姿态解耦网络、基于调制解调的非线性变换网络、面向新运动模式的掩码图卷积网络、跨模态双向指数角度三元损失、基于时间-空间-几何约束的姿态估计等一系列数据处理方法研究。提出的数据预处理方法将无监督人体行为识别的性能提升5.2%,提出的网络结构将人体骨架行为识别率在原来的基础上提高了10.22%,提出的损失函数优化,将跨模态的行人重识别性能提升6.5%。. 发表及接收期刊论文6篇、发表会议论文6篇,其中在TIP、TCSVT、TSPL等IEEE期刊和AAAI、ICME、ICASSP和ICIP等会议上的论文11篇。申请发明专利4项,其中1项已获授权。在此基础上,项目负责人孟凡阳作为核心成员参与了国家自然基金重点项目。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
面向自适应学习的端到端人脸识别
基于端到端学习的道路配准与匹配算法及其在非GPS无人机定位中的应用
基于端到端统一建模的图像内容问答算法研究
能量高效的端到端混合任务实时调度算法和协议