Query intent refers to the information that users expect the search system to return in respond to their queries. Accurately identifying user intent is the key for search engine to overcome the information overload problem. Due to the data sparseness and user privacy, fully automatic query intent identification is difficult and with high risk. This proposal focuses on query semantic analysis driven multi-level interactive query intent identification technique which aims to identify query intent in a human-computer cooperation way. The main contributions include: 1) Construct query global semantic representation based on semantic composition, in order to overcome the difficulty for representing the semantics of difficult queries, and support query semantic analysis. 2) By analyzing query ambiguity, predict query intent level automatically and identify query intent at sense level and attribute level accordingly. Make query intent identification involves naturally in the search process. 3) By query sense induction, construct query information need space and present to user in a friendly way to reduce user cognitive load during interacting with the system.4) Based on the outputs of query intent identification, we propose sense intent based relevance feedback model to improve relevance based ranking and multi-attribute based information summarization to directly satisfy user information needs. The target of this proposal is to implement a high-performance interactive search system which helps to overcome the search challenges due to vague query intent.
查询意图是指用户在构建查询时希望搜索系统能够返回的信息。准确识别查询意图是搜索引擎克服信息过载问题的关键。由于数据稀疏和用户隐私等问题,试图完全自动地预测查询意图面临着较大困难与风险。本课题尝试采用人机协同方式,研究查询语义分析驱动的多层次、交互式查询意图识别技术。具体研究内容包括:1)利用语义组合构建查询全局语义表示,克服由于数据稀疏和搜索结果质量不高导致的难查询语义表达问题,支持查询语义分析。2)基于查询歧义分析,自动判断查询意图层次,从语义层次到属性层次逐层确定查询意图,与用户搜索过程自然结合。3)基于查询语义意图归纳,挖掘并清晰表达潜在的查询意图,减轻用户认知负担,促进交互。4)以查询意图识别结果为基础,提出了基于语义意图的相关反馈模型改善文档相关性排序,以及基于属性意图的多维度信息摘要直接满足用户信息需求。课题目标是实现高性能的交互式搜索系统,解决因查询意图模糊导致的检索难题。
本课题提出查询语义分析驱动的多层次交互式查询意图识别研究,尝试构建不依赖于搜索结果和查询日志等局部信息的全局语义表示,并以此为基础实现一个集成多层次交互式查询意图识别与相关反馈服务的搜索系统。项目在以下研究内容方面做出一定贡献:. (1)基于分布式语义组合技术的查询意图自动归纳。查询日志分析发现大比例查询包括命名实体。首先提出一种新颖的开放式命名实体抽取方法,可不借助任何手工标注的模版或种子即可自动确定实体边界,构建开放领域命名实体数据库。进一步,基于改进的语义组合算法用于构建查询上下文的语义表示,通过自动聚类归纳出查询意图。在NTCIR 9查询子主题挖掘数据集上的实验结果表明,提出方法在查询子主题挖掘效果优于已有最好方法。. (2)融入用户历史的个性化查询意图识别。不同用户输入同一查询其具体意图可能是不同的。提出基于深度神经网络的个性化查询意图识别,将用户分类兴趣与内容偏好在同一框架内进行表示。在搜狗查询日志上的实验表明,基于深度神经网络的个性化查询意图识别算法获得了比忽略用户历史以及已有最好的个性化检索算法更好的效果。. (3)通过文档篇章语义分析,促进意图与资源的匹配。针对文档的篇章分析,准确识别出文档的主题,促进与意图匹配。对不同体裁文本采用不同策略,对于议论文,提出有效算法构建篇章论辩结构;针对记叙文,通过表达方式来识别构建篇章叙事结构,提出基于循环神经网络的序列标注模型实现表达方式自动识别的有效算法。. (4)主观意图与客观事件的语义匹配。基于论辩结构分析技术,在大规模议论性文本中抽取出论点、论据以及它们之间关联的论辩结构。在进一步提出一种排序学习策略能够有效处理内容上重叠度较低的关联型查询意图与相应资源的匹配。.课题组在国内外期刊发表论文9篇,SCI 收录4篇,EI收录3篇,权威核心期刊2篇;发表中国计算机学会推荐A类顶级会议2篇、B类顶级会议4篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
涡度相关技术及其在陆地生态系统通量研究中的应用
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
基于稀疏隐语义分析与众包的查询意图发现与推荐算法研究
查询驱动的交互式多媒体数据清洗方法研究
面向搜索引擎的用户个性化查询意图分析
基于新型检索模型和查询语义分类的搜索技术研究