Markov logic has been regarded as one of the most important tools for deep data analysis due to its full expressiveness of probabilistic graphical models and first-order logic. However, as we enter the "big data" era, the ever rising scale of the data makes progress in this paradigm increasingly difficult. To enhance the ability to acquire knowledge and insights from big data, this project conducts a systematic study on the framework of Markov logic from three aspects, including feature representation, parameter optimization and incremental learning system building. For the varied types and complex relations of big data, we first develop an effective hierarchical conceptualization algorithm for relational n-tuples by introducing the idea of predictive clustering trees and frequent sequential pattern mining. On this basis, a novel structure learning algorithm is designed to find paths between heterogeneous relations and automatically construct formulas. Furthermore, we introduce deep sum-product networks to address parameter learning for the large scale data, in which new online parallel optimization strategies are devised. Faced with the emergence of massive new data, we finally investigate feature representation and parameter optimization from incremental learning view, and build an integrated system for in-depth analysis of the big data. In conclusion,deep insight into the big data is achieved rapidly and accurately, thus helping lead to scientifically predictive decisions and judges.
马尔可夫逻辑作为一阶逻辑和概率图模型的充分结合,被视为数据深度分析的最重要技术手段之一,然而在该框架下所开发的大多数算法不具备良好的可扩展性。为了提升从大数据中获取知识和洞见的能力,本项目以马尔可夫逻辑为基础理论框架,拟从特征表示、参数优化以及增量学习系统搭建三个方面系统研究大数据深度分析技术。首先针对大数据类型多样化以及关系复杂化,拟借助预测聚类树和频繁序列模式挖掘思想,研究面向关系n元组的分层概念学习,在此基础上提出新颖的结构学习算法实现异质关系的路径搜索以及逻辑规则的自动构建。其次针对大数据规模庞大,拟借助深层和积网络理论,发展新的在线并行优化算法,实现不确定规则参数化学习。最后为了适应新增数据的不断涌现,在特征表示和参数优化中充分结合增量学习思想,搭建应用于大数据深度分析的增量学习系统。实现从大数据中迅速而准确地获取深层次语义信息,有助于促成科学预见性的决策和判断。
为了提升从大数据中获取知识和洞见的能力,本项目以马尔可夫逻辑为基础理论框架,从特征表示自动构建、可扩展学习推理以及增量学习系统搭建三个方面系统研究大数据深度分析技术。首先针对大数据类型多样化以及关系复杂化,研究对任意实例进行层次化分类以链接多粒度概念的方法,通过直接寻找可以覆盖树/有向无环图中期望标签子图的若干长程路径来克服传统方法由于依赖两两标签之间局部作用而导致的误差传播问题,所提出的方法表现出优越的预测性能,而且这种改进具有统计显著性;继而将异质关系的路径搜索问题约简为海尔勃朗全域中交互实体的简单路径搜索问题,同时建立了由简单路径到递归限定子句的稳健转换机制。其次针对大数据规模庞大,提出了可扩展的马尔可夫逻辑网络学习和推理的通用框架“实例网络采样”,该框架基于MCMC模拟提供了一种全新的实例化视角,继而结合随机游走和子图模式挖掘的优势,逐步构建有代表性的简单路径子集,避免了耗尽式搜索整个偏序图,推理时通过自动生成模板网络快速定位可以实例化给定子句的有效路径,尔后基于所产生的实例化网络进行子句学习和概率推理,理论和实验结果均验证了所提出框架的优越性,随着数据规模的显著增长能够以可接受的性能持续运行;在此基础上,利用嵌入模型发展了实例选择策略,仅利用更小的高质量候选子集来支撑后续的事实推理, 大幅度缩减数据规模的同时有助于提高推理准确率,在标准知识补全评测数据FB15K中将首位击中指标从32.911% 提高到71.692%。为了适应新增数据的不断涌现,进一步提出了结构特征增量式构建的自适应算法,通过将结构表示转化为稀疏二值表示设计了可以保持某种结构语义一致性的距离度量,最后以舆情预警作为验证性应用,搭建了适用于大数据深度分析的增量学习系统,该系统已经成功部署于国家某安全部门。实现了从大数据中迅速而准确地获取深层次语义信息的目标,有助于促成科学预见性的决策和判断。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
基于深度学习和马尔科夫逻辑网络的特殊视频识别研究
面向空间信息网络的马尔科夫编码传输理论与技术研究
马尔科夫过程与位势理论及其应用
马尔科夫跳跃中立型系统的分析与设计