The distributions underlying the training data and the test data are commonly assumed to be identical in traditional data mining methods. However in real applications, the scale of data increases dramatically as well as the updating speed. Under such circumstances, traditional data mining methods are insufficient to fulfill the requirements of the velocity and accuracy while handling with these data. Massive old data are excluded from consideration which is also regarded as a waste of meaningful information. Therefore, how to transfer useful knowledge from existed data to a new task becomes a challenging problem. Transfer learning techniques provide a resolution to the label insufficiency problem. Despite numerous efforts and achievements on transfer learning, there still exist several open problems, including the negative transfer problem and parameter adjustment. Adaptive transfer models are proposed in this project, with adoption of both the active learning and the crowdsourcing to improve the quality of the algorithms. The proposed models will be evaluated extensively on the massive data in hospital, enterprises and governments, aiming at providing theoretical foundation for resource utilization effectively, and helping them to realize sustainable development strategy.
在传统的机器学习框架下,通常需要充分的训练数据进行建模,并要求训练数据和测试数据具有相同的分布。而随着现如今数据规模的扩大和更新速度的提高,新任务往往不具备足够多的训练样本,而另一方面大量的异构数据被丢弃。迁移学习算法从冗余异构数据中提取知识,辅助新任务进行处理,打破了传统方法的限制。但相关研究还存在一些需要解决的问题,包括避免负面迁移和大规模参数调整,以及降低获取训练样本的成本。本项目基于迁移学习的研究成果,针对性的提出了自适应的迁移学习算法以避免负面迁移,同时设计结合主动学习和众包技术的迁移机制,降低标注成本,提升算法质量。拟针对大量实际应用中的数据进行测试,验证算法的有效性。
在生产实际中,一个新的任务通常和已有任务存在一定的联系。迁移学习方法可以将已有数据集中的有用信息,迁移到新的任务,以减少重新建模过程中大量的时间和费用消耗。然而,由于任务之间的分布差异,在异构环境下如何避免负面迁移问题,仍未得到有效的解决。除了要衡量数据间的相似性,还需要衡量实例间的相关性,而大多数传统方法仅在一个层面进行操作。本项目从实际问题出发,尤其是针对数据结构复杂、数据分布不同的海量数据,提出了迁移学习的相关模型,实验结果相比其他算法具有明显优势,取得了更好的准确率,在本项目进展的过程中发表了六篇论文,具备一定的科学意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
采用深度学习的铣刀磨损状态预测模型
基于主动学习和迁移学习的协同过滤算法研究
面向多类图像分类的众包主动学习方法研究
基于众包标注的多标记学习研究
众包大数据多源异构融合与知识学习