As the foundation of Semantic Web data, the size of RDF on the Web has developed into tens of billion of triples.Now,semantic big data is coming. This project focuses on the organization and processing of semantic big data. The key technologies for acquiring semantic data to meet the user intent are researched, listed as follows. 1) The extraction method based on the forgetting theory from multi-source semantic data sets is put forward aiming at the problems of considerable quality discrepancy and semantic inconsistency, and then a multi-view semantic data organization model will be built up. 2) User intent will be modeled from multi aspects (i.e., user interests, behavior, background and context information) and multi perspectives (i.e., what, where, who, when, why and how) dynamically. 3)The correlation model between user intent model and semantic data query will be presented. The query semantic expansion mechanism based on user intent model will be studied as well. At last, the evolutionary game model for user's selection of queries results will be constructed. In a word, this project provides new approaches to the organization and processing of semantic big data and new user intent based ways of acquiring semantic samll data, which will help promote the semantic data sharing and application of samantic big data on the Web.
作为语义Web的数据基础,Web上的RDF三元组规模已达几百亿条,已经形成"语义大数据"。本项目针对语义大数据的组织和处理的难题,研究满足用户意图的语义"小数据"的获取方法,主要包括:1)针对语义大数据中存在的质量参差不齐和语义不一致的问题,研究基于遗忘理论的多源语义数据抽取方法,构建多视图本体知识组织模型;2)从用户兴趣偏好、用户行为、背景知识和上下文信息等几个方面以及What, Where, Who, When, Why和How等多个角度构建动态更新的二维用户意图模型;3)建立用户意图模型和语义数据查询的关联模型,研究基于用户意图模型的查询语义扩展机制,构建用户对语义数据查询结果选择的演化博弈模型。本项目给出了语义大数据的组织和处理的新途径,提出了基于用户意图的获取语义"小数据"的新方法,将为推动Web上语义大数据的共享和应用奠定基础。
语义数据在链接数据运动推动下,数据量呈爆炸式的增长,具有海量规模和无标度特性的RDF图数据的组织和处理,成为分布式RDF数据的重要问题。针对该问题,本项目主要研究了以下内容:.根据术语集和断言集结构对RDF数据整体特性的影响,研究基于遗忘理论的多源语义数据术语集的抽取方法,构建设计了一个符合海量RDF数据集特性的多视图本体知识组织模型。在划分放置上,提出了以图划分为逻辑划分,区间划分为物理划分的双层划分放置,该方案结合了图划分的低通信开销特性和区间划分的水平可扩展性及动态负载均衡。实现了术语集冗余放置下的SPARQL查询接口。实验结果证明术语集冗余处理方法可以有效降低语义大数据跨划分边的数量。通过BGP查询验证了术语集冗余划分可以有效的提高大规模SPARQL查询的性能。.通过引入不确定性理论,借助主关键字和与用户意图相关的兴趣偏好、用户行为、背景知识和上下文信息等多个方面相关的辅助关键字的查询模式和ORDPATH 编码技术构建用户意图模型,实现了对查询关键字进行语义扩展,得到辅助关键字,通过主、辅关键字智能地识别用户的查询意图,返回带有用户偏好的查询结果。.基于证据理论给出了本体隶属度值的计算公式,并利用此值扩展了经典的 BM25F 排序算法,得到了满足用户需求演化的 MultikeyRank 排序算法,实验结果表明,此排序算法在 MAP、P@5、P@10 和 P@15四项测评指标上均比 BM25F 算法有一定幅度的提升,在此基础上,提出了一种基于消息传递机制新的 RDFS 并行推理框架 MPPIE,并进行大量的性能评估和对比实验,验证所提方案的正确性和高效性。在执行性能上,较当前性能最好的并行推理引擎平均快 30 倍以上。.本项目在语义大数据的组织和处理方面进行有益的新探索,将有利于其共享和应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
拥堵路网交通流均衡分配模型
基于轨迹数据的用户意图挖掘关键技术研究
协同特征CAD中支持多用户意图融合的关键技术研究
用户设计意图的程序标注及其类型验证技术研究
机载大孔径静态干涉光谱成像数据处理关键技术研究