In machine learning, active learning is an important method for effective information utilization, which actively queries the user for labels. In this project, we propose a novel bidirectional active learning algorithm, based on which network information security is studied as an application. To cope with the issue where the labeled instances are limited while the unlabeled instances are abundant and easy to access, we will propose an effective framework for effective classification via two-way exploration into labeled and unlabeled dataset, coordination between model update and upgrade, optimization of human-computer interaction, fusion and extension of existing algorithms, and so on. This project aims at exploring the effective solution for massive data classification through active learning, which is derived from the intensive study of data mining and machine learning. Based on large-scale data analysis, some key issues are to be addressed with the combination of empirical and data-driven techniques. This research work is innovative and practical, which will promote the advance of academic studies and stimulate related applications.
在分类问题中,主动学习能够主动地、有针对地选择最有价值的样本交给专家标注,是一种最大化信息使用效率的机器学习方法。本项目围绕主动学习算法理论,针对大规模数据分类问题中已标注样本获取代价高、数量有限而未标注样本大量存在、易于获取的典型特征,重点选取网络信息安全领域数据作为研究对象,设计和提出一种新型的双向主动学习算法,并在此框架下研究信息双向挖掘模式设计、模型调优与重构协同优化、高效人机交互机制探索创新、算法融合扩展等关键问题,最终形成一整套行之有效的研究方案,以解决大数据环境下海量信息的智能化、低成本化知识获取及分类问题。本项目以信息智能分析算法理论研究为基础,以数据挖掘、机器学习为指导,以人机交互为桥梁,深入研究双向主动学习方法及其应用,解决其中存在的若干关键问题,其研究成果不仅可以促进相关领域的学术研究,而且能够推动信息智能分析的相关实际应用,具有较强的创新性和实用性。
基于大规模数据的高效分析建模是一项具有重要研究意义和应用价值的课题。主动学习通过主动地、有针对地选择最有价值的样本进行标注,实现专家经验的高效利用,是一种最大化信息使用效率的机器学习方法。本项目围绕主动学习算法理论,针对大规模数据分类问题中已标注样本获取代价高、数量有限而未标注样本大量存在、易于获取的典型特征,重点选取实际应用中的大规模、多模态数据作为研究对象,设计和提出一种新型的双向主动学习算法,并在此框架下研究信息双向挖掘模式设计、模型调优与重构协同优化、高效人机交互机制探索创新、算法融合扩展等关键问题,最终形成一整套行之有效的研究方案,以解决大数据环境下海量信息的智能化、低成本化知识获取及分类问题。本项目以信息智能分析算法理论研究为基础,以数据挖掘、机器学习为指导,以人机交互为桥梁,深入研究双向主动学习方法及其应用,解决其中存在的若干关键问题,其研究成果不仅可以促进相关领域的学术研究,而且能够推动信息智能分析的相关实际应用,具有较强的创新性和实用性。本项目按照研究计划逐步开展、顺利实施,突破了若干关键技术,解决了实际应用中的难点问题,形成了海量数据高效智能分析解决方案和原型系统,圆满完成了既定目标,通过大规模数据库上开展的充分实验,验证了本项目所提出方法的有效性。基于本项目研究工作,在国内外高水平期刊、会议上发表学术论文21篇,申请发明专利6项,培养和指导博士/硕士研究生多名。研究成果荣获多项科技奖励,包括:省部级科学技术二等奖1项、省部级科技论文三等奖3项、学术会议优秀论文奖1项。研究成果在创新性和实用性方面获得同行专家的认可。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
物联网中区块链技术的应用与挑战
局部学习方法及其应用研究
面向异分布数据的主动学习方法
跨模态人脸特征学习方法及其应用研究
叶片双向光谱模型及其农业应用研究