Pattern mining provides an effective way for big data analysis. However, by providing users with only a very restricted mechanism for specifying patterns of interest (namely the minimum frequency), traditional pattern mining approaches usually result in the infamous pattern explosion problem. While this issue can be addressed by letting the user specify constraints which allow for focused pattern mining, current solutions are designed for a specific data model and they are not applicable to databases of different types. In this proposal, we will study methods and key techniques for supporting integrated, user-interest focused, pattern mining from multiple large heterogeneous data sources. We propose to use a novel keyword-based query language, called cohesive query language, as a flexible constraint specification tool that enables user-controlled focus to be incorporated into the pattern mining process. In a cohesive keyword query, the user can specify cohesive constraints among the keywords without any knowledge of the structure or data model of the underlying data sources. Based on the semantics for cohesive constraints provided for commonly used data models, we will design efficient algorithms for mining patterns that satisfy user-specified cohesive constraints. To allow the user reach faster the relevant patterns we will devise an effective ranking scheme which sorts patterns based on their relevance to the user interests. We will also design techniques for integrated exploratory mining of heterogeneous data sources based on cohesive relationships among the keywords discovered in the data. We will implement and experimentally test our new techniques on real, synthetic and benchmark (when available) datasets. Finally, we will develop a prototype tool for integrated exploratory pattern mining from multiple large heterogeneous data sources.
模式挖掘为大数据分析提供了一种有效的方法。传统的频繁模式挖掘算法仅为用户提供有限机制(最小频繁度)指定兴趣模式而导致产生“模式爆炸”的问题。该问题虽然可以通过聚焦用户指定约束的模式挖掘来解决,但现有解决方案都是针对特定的数据模型而设计,不适用于异构多源数据。本课题旨在研究支持大型异构多源数据聚焦用户兴趣的集成式模式挖掘方法和关键技术,为此将使用一种新颖的基于关键词的查询语言(称为内聚查询语言)作为灵活的约束规范工具,将用户控制的兴趣焦点纳入模式挖掘过程。用户指定内聚查询中关键词之间的内聚约束而无需了解数据源的结构或模型。主要研究内容包括:基于常用数据模型的内聚约束语义,设计高效算法挖掘满足用户指定的内聚约束的模式;基于模式与用户兴趣相关性设计有效排名方案让用户更快地获取相关模式;设计基于数据中关键词内聚关系发现的异构数据源集成探索式挖掘技术;开发大型异构多源数据集成探索式模式挖掘原型工具。
在当今大数据时代,人们现在面临的重要挑战之一是如何来理解和利用大数据,从中获取和实现数据的价值。模式挖掘为大数据分析提供了一种有效的方法。大数据的多样性体现在数据的异构和多源。本课题研究了大型异构多源数据的集成式模式挖掘方法和关键技术。异构多源数据所包含的实体以及实体之间的关系可以用图数据模型来统一表征。本课题主要研究了:(1)基于大规模图数据模式匹配问题。(2)基于物化视图的图数据模式匹配优化问题。(3)基于大规模树型数据的模式摘要抽取方法。在真实数据集上的大量实验结果表明我们提出的方法优于现有方法几个数量级,并且具有更好的可延展性。对异构数据源的集成式模式挖掘方法可以发现传统的模式挖掘算法无法找到的更具预测性、洞察力的有用模式,从而提高数据的价值。它对于诸如医疗信息和健康领域中异构多源数据的知识发现和融合具有十分重要的意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于约束的分布式序列模式挖掘方法研究
基于多目标优化的约束模式挖掘方法研究
基于集成异构网络的表型-基因关联挖掘研究
基于集成异构网络的民航旅客-航班关联挖掘研究