基于行列式点过程的海量数据摘要关键技术研究

基本信息
批准号:61562091
项目类别:地区科学基金项目
资助金额:38.00
负责人:李劲
学科分类:
依托单位:云南大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:刘惟一,李海,尤洁,谢潇睿,李青,马华丽,王瑞芳
关键词:
海量数据随机抽样行列式点过程数据摘要次模函数优化
结项摘要

With the rapid development of Web2.0, user-generated data are increased rapidly and we are confronted with the data-overload ear. As the important means for processing overload massive data, data summarization is to extract important data subsets from the massive data sets, where the elements in a subset should satisfy the diversity as possible. Determinantal Point Process (DPP) is a new kind method of data summarization. Solving the optimal data subset is the key problem of data summarization based on the DPP. In this foundation, we are aiming at the technical requirement and challenges of batch and steaming big data. Oriented to massive data, we will extend the existing research findings and focus on solving the optimal subset of DPP based on sampling and the optimization of submodular functions. We then make theoretic analysis and experimental tests on the proposed methods, and then develop the corresponding software systems. Our research findings will provide effective underlying techniques for massive data digest, which is important in theoretic and practical perspectives.

随着Web2.0 技术的迅速发展,用户产生的数据急剧增长,我们迎来一个数据过载的时代。数据摘要是应对过载海量数据的重要方法,旨在从海量数据集中抽取重要的数据子集,同时子集内元素尽可能满足差异化要求。行列式点过程是近年提出的新型的数据摘要方法。如何求解行列式点过程的最优数据子集是基于行列式点过程数据摘要技术的核心问题。本项目针对批量大数据和流式大数据数据摘要的技术需求和存在的挑战,拓展已有研究成果,重点研究面向海量数据的基于抽样和次模函数优化的行列式点过程最优子集求解方法。对新方法进行理论分析和实验测试,并开发相应的软件系统。研究成果将为海量数据摘要提供有效的支撑技术,为行列式点过程最优子集的求解方法提供新的思路,具有重要的理论意义和应用价值。

项目摘要

随着Web2.0 技术的迅速发展,用户产生的数据急剧增长,我们迎来一个数据过载的时代。数据摘要是应对过载海量数据的重要方法,旨在从海量数据集中抽取重要的数据子集,同时子集内元素尽可能满足差异化要求。行列式点过程(DPP)是近年提出的新型的数据摘要方法。如何求解行列式点过程的最优数据子集是基于行列式点过程数据摘要技术的核心问题。.首先,在基于DPP、次模函数的数据摘要模型及其算法方面,提出了一种基于次加函数(Sub-additive function)的数据间差异性的广义距离度量(generalized distance metric),基于该距离提出了一种集合多样化(diversity)的度量标准,利用该标准有效度量数据摘要子集的非冗余性,为高质量数据摘要子集提取方法提供理论基础。作为该方法的具体应用,提出了一种面向大规模图数据的并行、分布式的多样化排序新方法,给出了该方法在Spark平台上的基于Map-reduce编程模式的实现技术,相关成果以论文形式发表在《Future Generation Computer Systems》(中科院2区,影响因子:5.768),以及中文权威期刊《软件学报》。此外,通过理论分析和实验测试,验证了方法的高效性、正确性和可用性,也设计并开发了相应的实验平台和软件系统、并申请中国发明专利1项“基于Spark的大规模图数据的多样性图排序方法”,并于2019年5月获得专利授权。.此外,在本项目支持下,在社会网络影响力分析、控制方法方面开展积极研究。特别地,针对影响力传播抑制问题,扩展了经典的影响力传播的线性阈值模型,提出了竞争线性阈值模型,并给出了在此模型下的影响力抑制最大化的优化方法。相关研究成果以学术论文形式发表在《Knowledge-based Systems》(中科院2区,影响因子:5.101)、《计算机研究与发展》(中文权威期刊),《电子与信息学报》期刊上。针对miRNA-疾病关联预测问题,提出了一种基于图卷积神经网络结合非线性归纳矩阵补全的关联预测方法。相关成果以学术论文形式发表在剑桥大学出版社出版的生物信息学权威期刊《Bioinformatics》(SCI收录,中科院2区,影响因子:4.531),以及CCF推荐B类学术会议DASFAA上。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
3

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
4

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

李劲的其他基金

批准号:50871031
批准年份:2008
资助金额:35.00
项目类别:面上项目
批准号:51071049
批准年份:2010
资助金额:34.00
项目类别:面上项目
批准号:10374015
批准年份:2003
资助金额:26.00
项目类别:面上项目
批准号:59377323
批准年份:1993
资助金额:7.00
项目类别:面上项目
批准号:58770327
批准年份:1987
资助金额:2.50
项目类别:面上项目
批准号:59571060
批准年份:1995
资助金额:10.00
项目类别:面上项目
批准号:59877005
批准年份:1998
资助金额:20.00
项目类别:面上项目
批准号:E0524706
批准年份:2005
资助金额:10.00
项目类别:专项基金项目
批准号:50347009
批准年份:2003
资助金额:10.00
项目类别:专项基金项目
批准号:50571027
批准年份:2005
资助金额:24.00
项目类别:面上项目
批准号:51371053
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:51671059
批准年份:2016
资助金额:60.00
项目类别:面上项目
批准号:61474042
批准年份:2014
资助金额:78.00
项目类别:面上项目
批准号:50237010
批准年份:2002
资助金额:150.00
项目类别:重点项目
批准号:50772034
批准年份:2007
资助金额:32.00
项目类别:面上项目

相似国自然基金

1

基于显著特征和数据压缩的图像摘要关键技术研究

批准号:61802250
批准年份:2018
负责人:赵琰
学科分类:F0206
资助金额:25.00
项目类别:青年科学基金项目
2

基于云计算的海量数据挖掘关键技术研究

批准号:61035004
批准年份:2010
负责人:李涓子
学科分类:F0305
资助金额:230.00
项目类别:重点项目
3

基于行列式点过程的多元化建模的关键技术研究

批准号:61702145
批准年份:2017
负责人:乔卯英
学科分类:F0605
资助金额:28.00
项目类别:青年科学基金项目
4

基于人机协同的海量数据探索系统关键技术研究

批准号:61772492
批准年份:2017
负责人:谢希科
学科分类:F0202
资助金额:63.00
项目类别:面上项目