With the rapid development of Web2.0, user-generated data are increased rapidly and we are confronted with the data-overload ear. As the important means for processing overload massive data, data summarization is to extract important data subsets from the massive data sets, where the elements in a subset should satisfy the diversity as possible. Determinantal Point Process (DPP) is a new kind method of data summarization. Solving the optimal data subset is the key problem of data summarization based on the DPP. In this foundation, we are aiming at the technical requirement and challenges of batch and steaming big data. Oriented to massive data, we will extend the existing research findings and focus on solving the optimal subset of DPP based on sampling and the optimization of submodular functions. We then make theoretic analysis and experimental tests on the proposed methods, and then develop the corresponding software systems. Our research findings will provide effective underlying techniques for massive data digest, which is important in theoretic and practical perspectives.
随着Web2.0 技术的迅速发展,用户产生的数据急剧增长,我们迎来一个数据过载的时代。数据摘要是应对过载海量数据的重要方法,旨在从海量数据集中抽取重要的数据子集,同时子集内元素尽可能满足差异化要求。行列式点过程是近年提出的新型的数据摘要方法。如何求解行列式点过程的最优数据子集是基于行列式点过程数据摘要技术的核心问题。本项目针对批量大数据和流式大数据数据摘要的技术需求和存在的挑战,拓展已有研究成果,重点研究面向海量数据的基于抽样和次模函数优化的行列式点过程最优子集求解方法。对新方法进行理论分析和实验测试,并开发相应的软件系统。研究成果将为海量数据摘要提供有效的支撑技术,为行列式点过程最优子集的求解方法提供新的思路,具有重要的理论意义和应用价值。
随着Web2.0 技术的迅速发展,用户产生的数据急剧增长,我们迎来一个数据过载的时代。数据摘要是应对过载海量数据的重要方法,旨在从海量数据集中抽取重要的数据子集,同时子集内元素尽可能满足差异化要求。行列式点过程(DPP)是近年提出的新型的数据摘要方法。如何求解行列式点过程的最优数据子集是基于行列式点过程数据摘要技术的核心问题。.首先,在基于DPP、次模函数的数据摘要模型及其算法方面,提出了一种基于次加函数(Sub-additive function)的数据间差异性的广义距离度量(generalized distance metric),基于该距离提出了一种集合多样化(diversity)的度量标准,利用该标准有效度量数据摘要子集的非冗余性,为高质量数据摘要子集提取方法提供理论基础。作为该方法的具体应用,提出了一种面向大规模图数据的并行、分布式的多样化排序新方法,给出了该方法在Spark平台上的基于Map-reduce编程模式的实现技术,相关成果以论文形式发表在《Future Generation Computer Systems》(中科院2区,影响因子:5.768),以及中文权威期刊《软件学报》。此外,通过理论分析和实验测试,验证了方法的高效性、正确性和可用性,也设计并开发了相应的实验平台和软件系统、并申请中国发明专利1项“基于Spark的大规模图数据的多样性图排序方法”,并于2019年5月获得专利授权。.此外,在本项目支持下,在社会网络影响力分析、控制方法方面开展积极研究。特别地,针对影响力传播抑制问题,扩展了经典的影响力传播的线性阈值模型,提出了竞争线性阈值模型,并给出了在此模型下的影响力抑制最大化的优化方法。相关研究成果以学术论文形式发表在《Knowledge-based Systems》(中科院2区,影响因子:5.101)、《计算机研究与发展》(中文权威期刊),《电子与信息学报》期刊上。针对miRNA-疾病关联预测问题,提出了一种基于图卷积神经网络结合非线性归纳矩阵补全的关联预测方法。相关成果以学术论文形式发表在剑桥大学出版社出版的生物信息学权威期刊《Bioinformatics》(SCI收录,中科院2区,影响因子:4.531),以及CCF推荐B类学术会议DASFAA上。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
拥堵路网交通流均衡分配模型
内点最大化与冗余点控制的小型无人机遥感图像配准
基于多模态信息特征融合的犯罪预测算法研究
基于显著特征和数据压缩的图像摘要关键技术研究
基于云计算的海量数据挖掘关键技术研究
基于行列式点过程的多元化建模的关键技术研究
基于人机协同的海量数据探索系统关键技术研究