基于概率图的文本检索模型及算法研究

基本信息
批准号:61462043
项目类别:地区科学基金项目
资助金额:46.00
负责人:左家莉
学科分类:
依托单位:江西师范大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:叶浩,王晓庆,万中英,罗文兵,吴福英,洪欢,黄传飞,王千千,潘绍华
关键词:
查询重构文档表示模型索引项重要性文本检索模型概率图
结项摘要

Although Information retrieval has been the most effective means to deal with mass information, the search results are still difficult to meet the user's needs of fast and accurate information. In order to simplify information retrieval modeling, preprocessing discards a lot of relevant information of the document. In the retrieval phase, the user information needs expressed as queries containing only 3-5 terms make it difficult to effectively express user's real information needs. All these reasons cause poor retrieval accuracy. As it is too difficult to model lots of relevant information, building a good document representation model turns to be difficult, which makes most of the current information retrieval models take independence assumption. Query reformulation model can solve the problem of short queries to some extent. However, it may result in the query topic drift and make retrieval performance poor when add too much irrelevant information to query. The project attempts to construct a unified framework for document representation model and text retrieval model. By means of probability graph theory, the project construct document representation model and text retrieval model model, and explore node importance model in the graph model, then study query reformulation model. The model constructed by the project can realize text retrieval and query reformulation in the level of concept and then improve retrieval performance.

信息检索是应对海量信息最有效的手段,但检索结果仍难以满足用户要求的快捷、准确的信息需求。为方便信息检索建模,在文档预处理阶段丢弃了大量相关信息;在检索阶段,用户信息需求表达为查询,表现形式为3-5个索引项,难以有效表达用户真实查询意图,这是造成检索精确度降低的主要原因。由于大量相关信息难以建模,因而难以构建良好的文档表示模型,当前的信息检索模型大多蕴含独立性假设。查询重构模型虽在一定程度上解决了查询太短的问题,但也会因为加入查询的信息不相关或太多,导致查询"主题漂移",降低检索精度。本项目试图为文档表示模型和文本检索模型构建统一框架,借助概率图理论构造文档表示模型和文本检索模型,在图模型中研究节点(索引项节点、文档节点)重要性模型,进而对查询重构模型进行研究。项目所构造的模型可实现概念层上的文本检索模型和查询重构模型,可有效提高检索性能。

项目摘要

项目组通过将概率图引入至文本检索中,对文本检索中所蕴含的相关性信息和文档结构信息进行整体建模,为文档表示模型和文本检索模型构建统一的框架,基于此,构建了结合句子级别检索的信息检索模型、基于多层Markov网络的信息检索模型和基于词重要性的信息检索图模型。课题组成员共发表相关论文8篇,成功承办了第四届自然语言处理与中文计算国际会议(NLP&CC 2015)、中国计算机学会学科前沿讲习班第五十九期(CCF ADL 59)、第五届全国社会媒体处理大会(SMP2016)和第十四届全国自然语言处理青年学者研讨会(YSSNLP2017),培养了4名硕士,邀请了蒙特利尔大学聂建云教授、伊利诺伊大学香槟分校韩家炜教授和清华大学黄昌宁教授等知名学者来校讲学和交流。主要研究工作有:.结合句子级别检索的信息检索模型将文档分为若干个窗口,通过计算句子和查询的相关度考察查询词在给定窗口中的共现性,该方法可增大那些查询词彼此靠近的文档的相关度,从而使得检索模型可返回更为相关的文档。.基于多层Markov网络的信息检索模型,通过分别构造查询网络、词网络和文档网络,以融合词间关系、文档间关系和查询间关系。.基于词重要性的信息检索图模型,通过采用基于词项图的文档表示形式来捕获词项间的依赖关系,根据文档词项图采用马尔科夫链计算方法度量词项在文档中的重要性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019

左家莉的其他基金

批准号:61866018
批准年份:2018
资助金额:38.00
项目类别:地区科学基金项目

相似国自然基金

1

基于概率图模型的数据降维算法研究

批准号:61100158
批准年份:2011
负责人:王秀美
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目
2

基于概率图分类模型的潜在药物靶标挖掘算法研究

批准号:31801109
批准年份:2018
负责人:王腾蛟
学科分类:C0608
资助金额:18.00
项目类别:青年科学基金项目
3

基于概率标记图的API自动推荐算法研究

批准号:61602286
批准年份:2016
负责人:吕晨
学科分类:F0203
资助金额:19.00
项目类别:青年科学基金项目
4

基于概率图模型的张量分析及应用

批准号:60975001
批准年份:2009
负责人:庞彦伟
学科分类:F0605
资助金额:30.00
项目类别:面上项目