目前,人们得到的数据急剧增长,比如图像、视频和生物信息数据等。为了对这些数据进行有效地管理、挖掘和检索等操作,通常需要先对这些数据在语义(概念)层上进行标注,然后使用与其关联的关键词来进一步操作。而这些数据往往具有多义性的特点,即每个样本同时与多个概念关联。本项目以设计有效的基于机器学习的自动概念标注模型为目标,在充分考虑数据的多义性特点和结构化特征以及在非理想条件下,对标注任务中存在的关键问题和技术进行研究。项目的主要研究内容为:1.研究比较该类数据的结构化表示以及相似性度量方法;2.在数据结构化表示的基础上设计能够同时对数据结构化信息和数据多义性信息建模的概念标注方法;3.研究在有噪声和类别不平衡条件下,针对该数据构建具有较好泛化能力的概念标注模型;4.研究在小规模训练样本条件下充分利用未标注或者标注不充分数据来提高模型的泛化能力。最后,在以上研究的基础上,搭建有效测试平台和原型系统。
多义性数据的概念标注对数据的组织、管理和检索等都具有重要的作用。在此背景下,项目对基于机器学习的多义性数据概念标注问题开展了研究工作,完成了原定研究计划,取得的主要成果包括:(1)提出了基于多示例多标记的数据表示度量和语义标注方法;(2)提出了图像语义标注的多核集成学习方法;(3)提出了面向视频语义标注的半监督学习方法;(4)针对多模态多视角数据的语义标注和检索问题提出基于机器学习的方法;(5)针对生物数据的概念标注和分类聚类问题提出了半监督学习方法;(6)对于社交媒体的概念分析以及推荐问题提出了相关的分析和推荐模型;(7)基于语义标注与数据检索的相关性,提出了基于哈希学习的数据分析和检索方法;(8)实现了实验原型平台。项目组成员共发表论文19篇,其中国际期刊5篇,国际会议14篇,在CCF A类会议或者期刊发表3篇,CCF B类会议或者期刊发表9篇,CCF C类会议或者期刊发表4篇。获得国家发明专利2项,申请国家发明专利1项。另外,培养了多名研究生。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于标签弱标注数据和深度学习的视觉性概念特征自动提取技术研究
适于图像分类与标注的安全机器学习技术研究
面向弱标注视觉大数据的稳健学习和交互式标注方法研究
适于在线媒体内容分类与标注的机器学习技术的研究