面向大数据的快速关联分析关键技术研究

基本信息
批准号:61602075
项目类别:青年科学基金项目
资助金额:20.00
负责人:褚娜
学科分类:
依托单位:大连东软信息学院
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:张冬青,郑纯军,孙风栋,周方超,吴镝,宋晓莹
关键词:
挖掘算法关联分析大数据
结项摘要

Research of Association analysis is difficult and slow progress in the field of big data. The project researches the key technologies of association analysis for big data, aiming at solving the problems existing in multi-source data association analysis, such as low efficiency, low the correlation accuracy, high cost, and large number of intermediate results. In the data acquisition, we use Spark to study multi local target data acquisition, feature selection and fusion technology, the redundancy detection in a small amount of user interaction, to further improve the time efficiency and quality of data acquisition, to effectively solve the low efficiency problem for the multi-objective data pretreatment. In the association analysis, we study the real-time and fast frequent item set extraction method based on Spark, solve the problem of low efficiency due to the large number of intermediate results in the storage and computation, to realize the extraction of frequent item sets for big data. In association rules synthesis, We study the method of analysis and synthesis based on constraint behavior approach, to realize the rapid synthesis of rules and patterns by using the redundancy mechanism and behavior mechanism of constraint characteristics. The project meets our urgent need for the advanced treatment of big data resources, and supplies creative theories and techniques to promote the development of application industry including health care,intelligent traffic and so on, which has the major significance of research and application.

关联分析在大数据领域内的研究难度大且进展缓慢。本项目面向大数据,研究关联分析中的关键技术,旨在解决多源数据关联分析过程中存在的效率低、关联的准确性不高、开销高、大量中间结果等问题。在数据获取方面,利用Spark研究多局部目标数据获取、属性选择和融合技术,在少量用户交互下实现冗余检测,进一步提升数据获取的时间效率和质量,试图有效地解决多目标数据预处理低效率这一关键问题。在关联分析方面,研究基于Spark的实时快速关联分析中的频繁项集提取方法,解决由于在存储和计算上都无法接受的中间结果而导致的效率低下问题,实现大数据的高效频繁项集的提取。在关联规则合成方面,研究基于约束行为的分析与合成方法,通过利用冗余机制、行为机制等约束特性,实现快速有意义的模式及规则合成。本项目的研究可满足对大数据资源深度开发的迫切需求,为智能交通、健康医疗等产业的发展提供新的理论与技术支持,具有重大研究与应用意义。

项目摘要

面向大数据领域内的研究通常存在传统方式不适用、研究难度较高等一系列的问题与挑战。本项目面向大数据,研究数据集中特征间的关联性,旨在解决多源数据关联分析过程中存在的效率低、关联计算准确性不高、开销高等问题。在数据获取方面,本项目利用Spark平台技术研究多局部目标数据获取、特征选择和融合技术,在少量用户交互下实现冗余检测,进一步提升数据获取的时间效率和质量,试图有效地解决多目标数据预处理低效率这一关键问题。在关联性分析方面,研究实时快速提取特征间关联性的方法,解决由于在存储和计算上存在的效率问题,实现大数据的高效的关联性计算。基于获得的特征间的关联性计算结果,本项目提出有效的特征降维方法和基于特征关联计算的数据挖掘算法,用以解决交通、图像识别等领域内的实际问题。本项目在实施期间,通过项目成员分工合作,实现了基于Spark的快速数据获取及处理平台的搭建及设计,并基于此完成数据获取及处理框架的研究;完成基于局部特征降维的融合方法的研究,以及多模态数据特征的融合技术;在特征提取和特征降维的基础上,完成基于任务或目标的特征之间的关联性分析的研究,并完成在图像检索、遥感图像的船舶识别、语音评价及推荐模型、农产品价格预测等方面的应用研究。发表相关研究成果学术论文28篇,申请专利2项,软件著作权7项,培养博士研究生1名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

褚娜的其他基金

相似国自然基金

1

面向关联数据的信息检索关键技术研究

批准号:61672361
批准年份:2016
负责人:刘杰
学科分类:F0211
资助金额:63.00
项目类别:面上项目
2

面向生物威胁快速反应的大数据分析关键技术

批准号:U1435222
批准年份:2014
负责人:伯晓晨
学科分类:F0213
资助金额:480.00
项目类别:联合基金项目
3

面向分析的高性能数据库关键技术研究

批准号:60273017
批准年份:2002
负责人:陈红
学科分类:F0202
资助金额:20.00
项目类别:面上项目
4

面向语义事件的视频故事单元关联分析与跟踪关键技术研究

批准号:61002020
批准年份:2010
负责人:文军
学科分类:F0117
资助金额:22.00
项目类别:青年科学基金项目