互联网的飞速发展使得其成为汇集各种信息资源的海洋,信息载体呈现异构多样特点。为了对这些海量数据有效地加以利用,需要开发高效数据分析方法对其进行智能分析,从中挖掘出有用信息。鉴于机器学习方法,特别是核方法,在海量数据分析任务中发挥的重要作用,本项目从多核学习角度出发,运用合理的多核学习策略,试图解决核方法中核函数的选择问题,特别是如聚类、降维、流形正则化、多示例学习等问题中核函数选择问题。除此之外,多核学习框架还可以通过有针对性设计核函数集,进一步增强核方法在多源异构数据应用当中的性能。此外,为了进一步提高多核学习算法在海量数据处理应用中的效率,本项目从并行优化角度出发,计划采用高效分解方法,把原始多核学习算法的优化问题分解成数据局部性好、能够异步执行、通信量少、全局收敛快的并行优化子问题。从理论上给出算法精度与迭代次数关系、算法定量误差分析和算法性能可扩展性分析。
本项目基本完成项目书规定的任务,所研究的课题是机器学习中的多标签学习模型构建及其模型优化求解问题。众所周知,多标签问题是相对于单标签而言的,传统的单标签问题指一个样本对应一个标签,而多标签问题则指一个样本可以同时拥有多个标签。这样的问题在实际应用中普遍存在,如在图像检索应用中,通常一幅图像表达多个语义(标签)。如何实现让机器能够根据特征自动得出对应的标签, 而不是使用人力来进行标注,是一个很有意义的研究课题。本项目在同行已有工作基础上进一步研究新的多标签自动标注模型及其高效优化方法,其中包括TagSearcher方法、多源标注方法和基于推荐模型的标注方法等。此外,本项目在同行较少关注的缺失标签补全方面作了初步探索,提出了一个新颖的补全方法即线性重建算法(LSR),对缺失的标签进行标注。该方法只需要选用近邻的样本,而不是使用全部的样本进行重建,相比较已有的工作,不但取得更高补全精度,而且大大降低了算法的复杂度。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
拥堵路网交通流均衡分配模型
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
面向多核虚拟集群的并行应用性能优化方法研究
面向多核异构并行系统的随机调度策略与算法研究
面向视频大数据处理的数据流编程语言与并行优化方法研究
面向海量超高维数据的随机森林算法理论及优化方法研究