大数据挖掘在科技项目查重中的应用研究

基本信息
批准号:71303223
项目类别:青年科学基金项目
资助金额:20.00
负责人:李善青
学科分类:
依托单位:中国科学技术信息研究所
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:赵辉,宋立荣,刘润达,张英杰,涂勇,齐娜,姜吉栋,宫蛟飞
关键词:
大数据挖掘信息融合科技项目查重Hadoop
结项摘要

Similar project detection is an important way to avoid repeated project and constuction for project management department. however, how to effectively find similar projects is still an unresolved problem. This project will use big data mining theory and technology to integrate multi-source information of a project, construct a new discriminative model of project similarity, and hereby achieve a similar project detection method effectively. Scientific project information database is the foundation of implementing the above detection method. Five databases will be constructed, which is project information database, literature information database, experts database, institution database, and project-literature associated information database. Base on above database and theory, we will implement a prototype system for the field of electric vehicles using Hadoop software architecture. This project will provide an novel method of detecting similar projects, and the results will extend and improve the existed theory and method.

科技项目查重是避免重复立项、重复建设的重要手段,然而目前仍然缺乏行之有效的方法。本项目拟采用大数据挖掘理论和方法对与项目相关的多来源信息进行整合,构建准确、稳定的项目相似度判别模型,实现准确、高效的项目查重方法。围绕科技项目的大数据网络是项目查重的数据基础,将分别构建项目信息数据库,文献题录数据库,负责人数据库,承担单位数据库,以及项目与关键词的关联数据库。基于上述理论和数据基础,结合Hadoop技术,实现用于电动汽车领域项目查重的原型实验系统,为后续正式平台的搭建和推广积累经验和奠定基础。本研究工作为解决项目查重问题提供了一种全新的思路和方法,研究结果将是对现有项目查重方法的有益扩展和补充。

项目摘要

科技项目查重是避免重复立项的重要手段,然而目前仍然缺乏行之有效的方法。科技项目信息公开程度低是解决科技项目查重问题所面临的最大挑战。本项目提出了一种利用大数据挖掘方法来解决该问题的方案。首先,以科技项目的立项信息为核心,整合项目所产出的科技论文、科技报告和科技成果等信息,构建了科技项目大数据。其次,基于TextRank算法提出了针对科技文献摘要和标题等短文本的关键词抽取算法,利用从大数据中抽取的海量词频统计信息提升了算法的性能。再次,通过整合与项目紧密相关的多来源信息,构建了科技项目的表示模型,并给出了项目相似度的判别方法。最后,利用Hadoop和Spark计算框架,结合上述算法实现了科技项目查重的原型系统,并针对电动汽车领域进行了相关的应用研究。实验结果表明,我们所提出的科技项目查重方法在变更摘要的条件下取得了较高的准确率和召回率。此外,分布式环境下通过增加计算节点的数量可有效提升项目查重的速度。结果证明了该方法的有效性和可行性。本研究工作为解决项目查重问题提供了一种全新的思路和方法,是对现有项目查重方法的有益扩展和补充,为后续正式平台的搭建和推广积累了经验和奠定了基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验

资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验

DOI:10.14116/j.nkes.2021.03.003
发表时间:2021
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

李善青的其他基金

相似国自然基金

1

数据挖掘技术在血液肿瘤基因诊断中的应用研究

批准号:60374070
批准年份:2003
负责人:许龙飞
学科分类:F0305
资助金额:5.00
项目类别:面上项目
2

数据挖掘技术在物化探资料处理中的应用研究

批准号:40764002
批准年份:2007
负责人:宋宇辰
学科分类:D0408
资助金额:15.00
项目类别:地区科学基金项目
3

国家基础研究数据资源的开发及其在项目管理中的应用研究

批准号:61050009
批准年份:2010
负责人:李晓明
学科分类:F0211
资助金额:50.00
项目类别:专项基金项目
4

数据挖掘技术在金融风险管理与防范中的应用研究

批准号:70371028
批准年份:2003
负责人:马超群
学科分类:G0114
资助金额:14.00
项目类别:面上项目