面向大规模XML文档集的关键词检索系统关键技术研究

基本信息
批准号:61170091
项目类别:面上项目
资助金额:57.00
负责人:邓志鸿
学科分类:
依托单位:北京大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:张铭,陈薇,燕飞,王子琪,于航,高宁,王忠辉,徐潇然,江家健
关键词:
大规模XML文档集交互检索模型结果评分方法关键词检索Topk查询
结项摘要

随着大量数据以XML文档的形式存储和发布,人们亟需从这些数据中获取有价值信息,而现有XML关键词检索方法和技术不适用于处理大规模XML文档集。针对这种现状,我们提出面向大规模XML文档集的实用性强、交互性好的关键词检索系统的关键技术的研究课题。本课题拟引入机器学习的方法,解决内容和结构在结果评分中的融合问题,建立有效的结果评分方法,提高XML关键词检索效果;研究支持非单调评分方法、增量以及近似查询的Top-k查询理论方法,设计支持多种查询语义模型的Top-k查询算法,快速响应用户;研究关键词查询自动转换成树结构查询的技术,建立基于树结构查询推荐的用户交互检索模型,提高用户准确表达信息需求的能力、改善用户体验。以上述研究成果为基础,研制原型系统,形成一系列符合面向大规模XML文档集关键词检索特点的关键技术。我们的研究工作将丰富和发展XML关键词检索的理论和方法,具有重要的理论意义和实用价值。

项目摘要

作为Internet和Intranet上数据集成和交换的标准,XML已经被广泛应用于电子商务、内容管理、多媒体、数字图书馆以及中间件等众多领域。越来越多的数据以XML文档的形式存储和发布,并逐渐形成趋势。面对各行业中存储和发布的大量XML文档,人们亟需有效检索手段从中获取有价值信息。而现有XML关键词检索方法和技术不适用于处理大规模XML文档集。针对这种现状,我们提出了面向大规模XML文档集检索的关键技术研究课题。本项目拟引入机器学习的方法,解决内容和结构在结果评分中的融合问题,建立有效的结果评分方法,提高XML关键词检索效果;研究查询理论和方法,设计支持不同应用场景的查询算法,快速响应用户;研究关键词查询自动转换成树结构查询的技术,建立基于树结构查询推荐的用户交互检索模型,提高用户准确表达信息需求的能力、改善用户体验。以上述研究成果为基础,研制原型系统,形成一系列符合面向大规模XML文档集关键词检索特点的核心技术。..本项目在国家自然科学基金支持下,开展了相关核心关键技术攻关,取得了以高水平学术论文和发明专利授权为主要形式的成果,完成了三项关键技术创新: 1)提出了基于关键词分布的结果重排序模型,建立了有效的面向XML关键词检索的结果评分方法;2)基于两层索引框架,设计出针对不同应用场景的一般查询和Top-k查询的算法,解决了快速响应用户的问题; 3)基于条件随机场理论,提出了XML关键词查询语义反演模型,对基于关键词检索的用户查询意图进行了有效的预测,改善了用户体验。项目组获得国家发明专利2项,发表学术论文25篇,其中SCI收录 16篇,EI收录7 篇,中国计算机学会A类会议论文4篇。项目研究成果有助于提升我国互联网搜索相关行业的竞争力,具有良好的应用前景。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

Protective effect of Schisandra chinensis lignans on hypoxia-induced PC12 cells and signal transduction

Protective effect of Schisandra chinensis lignans on hypoxia-induced PC12 cells and signal transduction

DOI:10.1080/15287394.2018.1502561
发表时间:2018
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

邓志鸿的其他基金

相似国自然基金

1

面向大规模XML文档集的文本分类与聚类技术研究

批准号:60875033
批准年份:2008
负责人:杨建武
学科分类:F0603
资助金额:24.00
项目类别:面上项目
2

XML文档管理系统的关键技术的研究

批准号:60003008
批准年份:2000
负责人:田增平
学科分类:F0202
资助金额:17.00
项目类别:青年科学基金项目
3

面向时空应用的大规模复杂模糊时空XML数据管理关键技术研究

批准号:61402087
批准年份:2014
负责人:柏禄一
学科分类:F0211
资助金额:24.00
项目类别:青年科学基金项目
4

中文手写文档关键词检索的理论与方法研究

批准号:61403385
批准年份:2014
负责人:张恒
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目