未标记数据流中的迁移学习关键问题研究

基本信息

批准号：61305063

项目类别：青年科学基金项目

资助金额：23.00

负责人：张玉红

学科分类：

依托单位：合肥工业大学

批准年份：2013

结题年份：2016

起止时间：2014-01-01 - 2016-12-31

项目状态：已结题

项目参与者：李培培,郭丹,张靖,胡孔兵,周全,欧倩倩,吴斐,徐旭,毕佳佳

关键词：

未标记数据迁移学习概念漂移数据流

结项摘要

Learning from unlabeled data stream is a hot topic, this is because it is difficult to obtain the labels of data streams in the real-world applications. Recently, semi-supervised learning has been used to handle unlabeled data streams. However, these approaches are built on the assumption that both of the labeled and unlabeled distributions are independent and identical. It is obviously not supported in the real-world applications. Thus, transfer learning, which aims to learn from the unlabeled data with the help of some labeled data, is proposed to tackle the unlabled data streams. In this proposal, we focus on the key issues of transfer learning on unlabled data streams. More specifically, we first study the adaptation of transfer learning theory and method in data streams, and explore the model of representation and design on issues of the transfer subjects and the transfer bridges, which are real-time in view of the streaming environment. Secondly, we study the effective transfer learning methods for unlabeled data with the help of labeled data regarding the instance，feature, model, etc. Meanwhile we will focuse on the method and technique of the label propagation. In addition, regarding the concept drifts in data streams, we study effective methods of concept drifting detection and the adaptation mechanism of classifiers for unlabeled data streams. Lastly, we aim to construct the knowledge transfer approaches of unlabeled data stream without the restriction of independent and identical distributions. Based on all mentioned above, we apply our methods in the hanlding of text streams such as the reviews of products on the web, and design the prototype system of classification for one or multiple unlabeled data streams.

实际应用中标记信息的难以获取使得未标记数据流的研究成为热点。目前已有研究将半监督方法用于不完全标记数据流，然而这种方法基于标记数据与未标记数据独立同分布的假设，这在实际应用中难以满足。为此本课题将迁移学习引入未标记数据流中，围绕其中的关键问题展开研究。首先对迁移学习理论和方法体系在数据流环境下的适应性问题开展研究，探讨适应流环境的实时、快速的迁移主体和迁移桥梁的模型表示和设计方法；基于实例、特征、模型等数据形态，研究如何有效的将标记数据迁移到未标记数据的学习过程中，重点研究标记信息的传播和扩散机制；此外，针对未标记数据流中的概念漂移问题，开展有效的概念漂移检测方法和相应的分类器适应机制，最终形成不受独立同分布条件限制的，未标记数据流的有效知识迁移体系和方法。在上述工作基础上，以web评论数据流为应用背景，构建未标记数据流的分类原型系统。

项目摘要

本项目研究基本按计划执行，围绕基于数据流中的迁移学习问题及相关应用问题，根据预定的技术路线开展研究。首先，针对在线文本数据的一般特点，如多标记，短文本和质量不高等，研究了有效的相应处理方法方法。此外，针对迁移过程中数据块之间分布差异的不同形式，设计适用于在线数据流环境的迁移学习模型与算法，有效的避免负迁移现象，在实际领域数据集上验证了其对精度的提升。最后，研究了数据流下概念漂移检测与迁移学习相结合的在线学习框架，提高了在线学习的效率。在此基础上，尝试将研究中所设计的模型与算法在实际数据流领域进行应用研究。经过三年的研究，项目执行情况良好，取得了丰硕的阶段性成果。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.14050/j.cnki.1672-9250.2017.02.014

发表时间：2017

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：

发表时间：2021

DOI：10.3969/j.issn.1001-1978.2022.02.019

发表时间：2022

DOI：10.1360/SSM-2020-0035

发表时间：2020

张玉红的其他基金

批准号：51203047

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：20571063

批准年份：2005

资助金额：24.00

项目类别：面上项目

批准号：21472165

批准年份：2014

资助金额：85.00

项目类别：面上项目

批准号：21272205

批准年份：2012

资助金额：80.00

项目类别：面上项目

批准号：20373061

批准年份：2003

资助金额：24.00

项目类别：面上项目

批准号：21672186

批准年份：2016

资助金额：65.00

项目类别：面上项目

批准号：61705077

批准年份：2017

资助金额：25.00

项目类别：青年科学基金项目

批准号：21072169

批准年份：2010

资助金额：38.00

项目类别：面上项目

批准号：20872126

批准年份：2008

资助金额：30.00

项目类别：面上项目

批准号：11801170

批准年份：2018

资助金额：25.00

项目类别：青年科学基金项目

批准号：41201183

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：31370630

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：41506019

批准年份：2015

资助金额：21.00

项目类别：青年科学基金项目

批准号：41771195

批准年份：2017

资助金额：65.00

项目类别：面上项目

相似国自然基金

数据流半监督分类中的半监督迁移学习研究

批准号：61866007

批准年份：2018

负责人：文益民

学科分类：F0603

资助金额：38.00

项目类别：地区科学基金项目

面向正样本和未标记样本学习的算法研究及其应用

批准号：61876044

批准年份：2018

负责人：刘波

学科分类：F0605

资助金额：64.00

项目类别：面上项目

基于多潜在空间的迁移学习关键问题研究

批准号：61703187

批准年份：2017

负责人：潘剑寒

学科分类：F0603

资助金额：24.00

项目类别：青年科学基金项目

未饱和含湿多孔介质中热质迁移的研究

批准号：59136061

批准年份：1991

负责人：施明恒

学科分类：E0603

资助金额：17.00

项目类别：重点项目

未标记数据流中的迁移学习关键问题研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于综合治理和水文模型的广西县域石漠化小流域区划研究

智能煤矿建设路线与工程实践

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

TRPV1/SIRT1介导吴茱萸次碱抗Ang Ⅱ诱导的血管平滑肌细胞衰老

现代优化理论与应用

张玉红的其他基金

基于小分子液滴为模板单分散聚合物/SiO2复合微球的可控制备及形成机理研究

离子液体中纳米金属材料的制备和性质研究

过渡金属催化的碳氢键CO2羧基化固化反应研究

过渡金属催化的含硫基团导向的C-H键活化反应研究

介相化学催化剂的制备和不对称催化性质研究

过渡金属有机小分子协同催化的C-H键活化反应研究

掺杂Gd3+增强微纳晶材料上转换荧光强度的研究

过渡金属催化的C-O键活化反应研究

过渡金属催化的芳炔反应研究

流-流耦合模型分裂时间步解耦算法的研究

不同时空尺度下的湿地景观格局与动态趋势研究

黄檗种子休眠解除的生理与蛋白质组响应

基于盐度卫星观测研究赤道印度洋海表盐度变率

多源遥感与生态监测支持下的湿地景观稳定性模型的构建及景观优化研究

相似国自然基金