基于查询词级联关系的高阶信息检索问题研究

基本信息
批准号:61202181
项目类别:青年科学基金项目
资助金额:25.00
负责人:乔亚男
学科分类:
依托单位:西安交通大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:李波,郗旻,杜小智,魏笔凡,薛咏,刘斌,茅琴娇,梁增玉,马健
关键词:
张量信息检索信息检索问题信息检索模型信息需求
结项摘要

The inputs of traditional Information Retrieval systems are always query terms with parallel relations, and this type of inputs reflect the users' information needs roughly. In the practical applications, there are some complex relations between query terms frequently. In fact, not only should the documents user needed contain the query terms, but also the relative positions of query terms should meet certain hiberarchy relations. This is "Higher-order Information Retrieval" defined in this proposal, and we call traditional Information Retrieval "first order Information Retrieval" instead. Some research fields such as Public Opinion Analysis, Chain of Events Analysis, Trend Analysis and Text Sentiment Classification reflect the vague concept of Higher-order Information Retrieval in previous studies. In this proposal, we try to propose a unified model to deal with Higher-order Information Retrieval problems, mining the inner meanings between query terms, resolving the Higher-order Information Retrieval Problems in more general ways. In this unified model, the documents and queries are converted to document tensors and query tensors, and the matchings between documents and queries are converted to the calculations of similarity function between document tensors and query tensors. This unified model is appropriate for Higher-order Information Retrieval theoretically and formally compared with traditional models which simplify the Higher-order Information Retrieval problems as first-order Information Retrieval problems to some extent.

传统信息检索系统的输入通常是一系列平行的查询词,只能较为粗糙地反映用户的信息需求。在实际应用环境中,用户给出的多个查询词之间往往存在着一定的层次关系,用户实际需求的文档不仅要包含特定的查询词,而且这些查询词在文档中的相对位置还需要满足特定的多重从属关系,即满足查询词级联关系。这种基于查询词间级联关系的信息检索问题称之为高阶信息检索问题,它在一定程度上统一了已有的一些研究方向,如舆情分析、时间链分析、发展趋势分析和文本情感分类等。本课题试图建立统一模型对高阶信息检索问题进行建模和分析,挖掘查询词间的深层次关系,以更通用的方式解决高阶信息检索问题。在该模型中,文档和查询都被抽象为文档张量和查询张量,文档和查询的匹配过程转化为文档张量和查询张量之间的相似度运算,可以更直接地处理在传统信息检索模型中本质上被简化为一阶的高阶信息检索问题。

项目摘要

本项目以高阶信息检索技术为基础,基于微博、维基百科等平台的数据资源,利用社会网络分析相关技术开展了一系列的研究工作,包括对传统信息检索模型的直接改进、“秘书化”辅助信息检索的相关研究和移动平台社交网络上信息检索问题的相关研究等等。主要研究成果包括:.提出了一种查询词相似度加权的邻近性检索方法,该方法根据查询词之间的语义相似度对QTP统计量加权,可以进一步推断用户的实际信息需求,挖掘查询中蕴含的更深层次的信息。实验结果表明,在短查询较多的应用环境下,该方法可以显著地提升传统邻近性检索方法的性能,有效地规避查询词邻近性的平行概念效应。.提出了一种基于维基百科超链接结构的领域分面挖掘方法(DF-Miner)。DF-Miner首先从维基百科文章页面构造一个特定领域的超链接图,然后从维基百科目录页面中提取树结构,再把特定领域的的术语分组到根据社团发现结果获得的多个分面。最后,DF-Miner根据每个分面的多个关系术语选择一个有意义的标签。实验结果表明,DF-Miner相比传统基于内容文本的方法性能有着显著的提升。.提出了一种使用规则和N-Gram的网络新词提取方法,通过拼音和中文词语搭配库建立网络新词和现有词汇的映射关系,从而实现对网络新词的识别以及词义、词性、极性的标注.基于新浪微博最新实时数据的实验结果表明,该方法可以较好的识别出网络新词,新词提取F-measure和新词词性、极性标注准确率分别达到了75.94%和84.52%..针对微博数据特点,提出一种基于降噪算法和条件随机场模型的微博数据词性标注方法,并对其中比重较大的谐音词使用贝叶斯方法进行词性二次纠正。实验结果表明,该方法可以较好地标注微博未登录词,词性标注准确率达到95.23%。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

乔亚男的其他基金

相似国自然基金

1

高精度的跨语言信息检索查询词自动翻译技术研究

批准号:60970057
批准年份:2009
负责人:姚建民
学科分类:F0211
资助金额:31.00
项目类别:面上项目
2

基于关键词的关系数据库查询技术研究

批准号:61303004
批准年份:2013
负责人:林子雨
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目
3

信息检索中基于用户检索历史挖掘的个性化查询自动补全方法研究

批准号:61702526
批准年份:2017
负责人:蔡飞
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目
4

基于关键词抽取的云环境密文检索研究

批准号:61671030
批准年份:2016
负责人:杨震
学科分类:F0102
资助金额:58.00
项目类别:面上项目