基于稀疏隐语义分析与众包的查询意图发现与推荐算法研究

基本信息
批准号:61402403
项目类别:青年科学基金项目
资助金额:26.00
负责人:张寅
学科分类:
依托单位:浙江大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:伊灯,王彦斐,余宙,尹彦飞,洪鑫,刘军
关键词:
查询意图推荐查询意图发现众包稀疏隐语义分析
结项摘要

Accurate query understanding is substantially important for improving service quality in all kinds of search engines. In this proposal, we specifically analyze large-scale query logs, search result contents and open knowledge bases to represent, discover and recommend query intents, by building the multi-layer stacking sparse latent semantic analysis models and employing the crowdsourcing. The following studies will be carried out. First, we will invent the query intent discovery algorithm based on the multi-layer stacking structured sparse latent semantic analysis models, which automatically identify the appropriate number of latent query intents from the data. Second, we will devise the hybrid human-machine query intent discovery algorithms based on the generalized active learning framework, which models the quality of workers and selects the most valuable worker-task pairs to obtain the human feedbacks. At last, we will devise the utility-based diverse query intents selection and recommendation algorithms. Our studies aim at identifying multiple latent query intents of high-quality from query logs, search result contents and knowledge bases and recommending the most effective ones to the users, by combining the crowdsourcing with the sparse latent semantic analysis algorithms and leveraging the strengths of both humans and machines.

准确地理解用户查询对于提高各类搜索引擎的服务质量至关重要。本项目以查询-点击日志、搜索结果内容以及开放知识库为主要研究对象,采用多层堆叠的稀疏隐语义分析模型以及众包作为主要技术手段,按照查询意图表示、查询意图发现、查询意图推荐的研究步骤开展研究。具体内容包括:基于多层堆叠的结构化稀疏隐语义分析模型的查询意图发现方法,自动从数据中学习得出合适的隐查询意图数目;基于泛化主动学习框架的结合众包-隐语义分析的查询意图发现方法,建模众包工人的工作质量,挑选对算法最有贡献的工人-任务配对进行众包;以及基于效用的多样化查询意图筛选与推荐方法。本项目旨在有机地结合众包与稀疏隐语义分析算法,同时发挥人脑与机器的长处,以从查询-点击日志为主的大规模异构数据中高质量地发现用户查询对应的多种隐查询意图,并选择最具效用的若干隐查询意图推荐给用户。

项目摘要

准确地理解用户查询对于提高各类搜索引擎的服务质量至关重要。本项目以查询-点击日志、搜索结果内容以及开放知识库为主要研究对象,采用稀疏隐语义分析模型以及众包作为主要技术手段,从查询意图发现、众包、推荐算法等方面进行了深入研究,研究内容包括:1)在意图发现方面,研究了多种基于结构化稀疏隐语义分析模型的查询意图发现算法;2)在众包方面,研发了人在回路的查询意图发现方法和验证系统,验证了算法-众包相结合的必要性;3)在推荐算法方面,研究了多种基于哈希编码学习、流式数据处理的高性能推荐算法。本项目验证了人在回路的机器学习算法的有效性,同时发挥人脑和机器的长处,本项目成果已集成到CADAL数字图书馆,面向国内外100余所高校的师生提供在线服务。.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

张寅的其他基金

相似国自然基金

1

基于查询语义分析与推理的隐式相关反馈检索模型研究

批准号:61272324
批准年份:2012
负责人:孙乐
学科分类:F0211
资助金额:80.00
项目类别:面上项目
2

查询语义分析驱动的多层次交互式查询意图识别技术研究

批准号:61402304
批准年份:2014
负责人:宋巍
学科分类:F0211
资助金额:26.00
项目类别:青年科学基金项目
3

众包背景下社会媒体的语义提取、融合与分发机制研究

批准号:61672535
批准年份:2016
负责人:郭克华
学科分类:F0605
资助金额:62.00
项目类别:面上项目
4

群智感知系统中多维众包数据建模、存储索引与查询优化研究

批准号:61802230
批准年份:2018
负责人:张晨
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目