面向实体信息集成的非合作半结构化深网数据源选择

基本信息
批准号:61462037
项目类别:地区科学基金项目
资助金额:44.00
负责人:邓松
学科分类:
依托单位:江西财经大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:余鹰,钱文彬,姜允志,戴仕明,廖子龙,吴小芳,兰方毅
关键词:
深网非合作实体数据源选择半结构化
结项摘要

In web environment, most of deep webs are semi-structured, and web crawler can not get the content of them. Therefore, non-cooperative semi-structured deep web is our research object. As entity imformation integration is the important research content of the Deep Web information integration, meeting user damand for integrated retrieval of entity and improve the efficiency of Deep Web integration is our goal,so we study the corresponding data source selection method for semi-structured Deep Web.The work of research include sampling deep web, construct summary, summary update and evaluation strategy. The representation of sampling data of existing methods is not strong.Therefore, taking the characteristics of the entity data of semi-structured deep web into consider, we propose a sampling technique for semi-structured deep web sampling base on random walk tree and graph. For the demand of integrated retrieval,including entity information integration and Entity association mining,we propose a summary construction method base on documents ,feature word and label.Taking above demand characteristics into account, we propose two data source selection methods,the first is based on interest and novelty,the second is base on characteristics transfer relationship of entity. In order to reduce the workload of the update of data source summary,we take the update characteristics of data sources in the same field into account,proposing a summary update strategy base on sampling and entites extended. The study will help to enhance the semi-structured deep web integration efficiency and also has a good application prospects.

Web环境下,大部分深网是半结构化的且不能用传统爬虫获取其中内容,因此本项目以非合作半结构化深网数据源为研究对象。由于实体信息集成是深网集成的重要研究内容,因此以满足用户实体集成检索的需求,提高Web深网集成效率为目标,研究相应的半结构化深网源选择方法。研究内容包括深网抽样、摘要构建、摘要更新、选择策略。项目针对已有深网抽样采样数据代表性不强等问题,鉴于半结构化深网实体数据特点,提出了基于图和随机游走的半结构化深网抽样技术;针对实体信息整合与实体关联挖掘的集成检索需求,提出了基于文档与特征词标注的摘要构建方法,并结合以上需求特点分别提出了基于兴趣度和新颖度的数据源选择方法、基于实体特征传递关系的数据源选择方法;为了减少数据源摘要更新工作量,基于同领域数据源数据更新特点,提出了基于抽样和实体扩展的局部摘要更新策略。该研究有助于提升半结构化深网集成效率,具有较好的应用前景。

项目摘要

为满足基于相关性和多样性的集成检索需求,提出了一种基于主题与概率模型的非合作深网数据源选择策略。我们构建了基于主题的层次化数据源摘要和偏差概率分布模型,提升了相关性判别的准确率。. 实体集成需求具有多样化的特点,我们做了以下相关研究:1)实体信息集成检索需求以实体为核心,因此我们构建了以实体为中心的数据源简要摘要。利用情感词与主题词进行重复度计算,基于信息增量进行数据源选择。2)景点人文信息集成的数据源选择的本质是基于所有相关的名人人文信息集成的数据源选择。为了有效实现基于“景点+名人”、“景点”或“名人”模式的旅游人文信息集成的Web数据源选择,我们构建了基于名人、人文主题以及相应的人文信息长度和标记词等为组成元素的数据源摘要,以较少的数据量较好地概括了数据源的人文信息;另外,基于名人人文信息增量设计了相应的数据源选择策略。. 数据源内容更新时,摘要也需对应更新才能保证数据源选择的准确性。整体更新数据源摘要工作量巨大,因此使用局部更新策略提高效率。首先,建立了基于人物与特征词关系对的数据源摘要。当某个人物对应内容变化达到一定程度,其摘要需要及时更新,且与其关联紧密的人物对应摘要也需要更新。而后,我们提出了基于文化内容增益的数据源评分策略。. 实体关联信息挖掘以丰富实体之间的关系为目标,满足用户深层次的检索需求。我们基于实体关联图中的实体权重以及链接信息,构建了实体关联矩阵摘要;基于实体关联查询意图提出了数据源相关性计算方法。. 另外,为进一步提升数据源选择策略的效率与效果,我们还做了一些扩展研究。为了进一步提升Web数据集成的价值,提出了基于行为与内容的垃圾数据识别方法。针对时空关键词检索需求,提出了一种基于混合位图的索引,既节省了空间,又支持相关性计算。本课题研究有助于提升半结构化深网集成效率,在海量数据处理领域具有较好的应用前景。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
2

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
3

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019

邓松的其他基金

批准号:51507084
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:51605354
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

海量深网数据源入口的自动发现与集成研究

批准号:61472296
批准年份:2014
负责人:李雁妮
学科分类:F0214
资助金额:81.00
项目类别:面上项目
2

面向Web数据集成的半结构化Web数据自适应抽取与整合问题研究

批准号:61303007
批准年份:2013
负责人:丁艳辉
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目
3

面向非结构化文本的大规模事件信息抽取关键技术研究

批准号:61806201
批准年份:2018
负责人:陈玉博
学科分类:F0606
资助金额:26.00
项目类别:青年科学基金项目
4

非结构化数据中威胁本体构建、实体识别与关系抽取方法研究

批准号:61902265
批准年份:2019
负责人:黄诚
学科分类:F0205
资助金额:25.00
项目类别:青年科学基金项目