信息搜索服务中一种新型多样性测度模型及多样性信息提取方法的研究

基本信息
批准号:71372044
项目类别:面上项目
资助金额:60.00
负责人:卫强
学科分类:
依托单位:清华大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:马宝君,张瑾,张遵强,刘冠男,马玥,刘东亮
关键词:
信息冗余信息覆盖信息结构多样性信息提取
结项摘要

As the Big-Data era comes, the search results presented by state-of-art information search service appear the characteristic of information overload. Simultaneously, with the deepening application of users and limitations of browsing duration and space, how to present users with more diversified information becomes an important fact affecting search quality. Existing methods show the shortages on both effectiveness and efficiency. Thereafter, this project focuses on the following aspects: (1) Designing a novel model of information diversity metric including information coverage (containing information structure) and information redundancy; (2) Evaluating existing diversification methods with the proposed metrics model; (3) Designing an efficient heuristic method of extracting diversified information; (4) Experimental design on large-scaled data sets. This project tries to not only propose a metric model but design an extraction method to better fulfill the requirements of advanced search service in the Big-Data era.

随着大数据时代的不断临近,信息搜索服务所提供的搜索结果也呈现信息过载的特征。同时,随着信息搜索用户的深度应用,且浏览时间和空间的约束,如何在有限的第一页搜索结果中呈现给用户更具多样性的信息,逐渐成为了一个影响搜索体验和信息搜索服务质量的重要因素。信息多样性包括信息覆盖和信息冗余两个方面,而已有的研究更多着眼在信息内容覆盖而忽略了信息结构覆盖这一重要测度,且目前已有方法也存在结果不够理想和效率不高等缺陷。因此,本项目计划从以下几个方面入手进行研究:(1)设计考虑信息结构的信息覆盖度和信息冗余度的多样性测度模型;(2)应用多样性测度对多样性信息提取方法进行评估和比较;(3)设计一种高效的启发式多样性信息提取方法:(4)通过大规模搜索数据实验验证测度模型和提取方法的有效性。通过本项目所提出的测度模型和提取方法能更好地适应大数据环境下的深度多样性信息搜索服务的要求。

项目摘要

随着大数据时代的到来,信息搜索服务所提供的搜索结果也呈现信息过载的特征,并给有效信息搜索的信息提取带来新的挑战,并进一步影响到基于信息搜索的相关管理决策和服务应用,如在线评论分析,在线推荐效果,搜索与评论UGC的深度应用等。本项目集中在此方面进行探讨,并取得了如下几方面的研究成果:第一,在大数据背景下的代表性信息测度模型与提取方法的研究上,提出并设计了一整套Representativeness的测度指标体系,为代表性信息提取研究提供了有效理论模型;设计了REPSET代表性信息提取算法,具有更好的效度和计算缩放性;设计了高效的启发式FastCovC+S-Select算法。第二,在在线推荐与在线评分分析的研究上,提出来用户评论的偏好测度分析框架,并设计了效果更优的个性化推荐方法UPCF;针对实际在线评论的高噪音、高稀疏和有偏的现象,设计了引入全体分布特征eSOP方法。第三,在基于搜索大数据整合的应用研究中,提出了基于搜索引擎场景的竞争性测度模型和分析框架;提出了基于二部图的BCG 算法和引入主题建模的TCK算法,可以更为有效地提炼得到竞争对象和竞争度,具有极强的新颖性和商业实用价值。本项目研究取得了较为满意的学术成果,相关成果发表在如MISQ,INFORMS JoC,ACM TKDD,Decision Sciences等本领域顶级期刊上。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
3

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
4

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

相似国自然基金

1

多层QoS约束支持的遥感信息服务个性化搜索方法

批准号:41201388
批准年份:2012
负责人:蒋玲
学科分类:D0114
资助金额:25.00
项目类别:青年科学基金项目
2

物联网实时信息搜索与服务技术的研究

批准号:61772085
批准年份:2017
负责人:罗红
学科分类:F0208
资助金额:64.00
项目类别:面上项目
3

茶蚜天敌搜索利它素作用机制的生物多样性

批准号:39870543
批准年份:1998
负责人:陈宗懋
学科分类:C1406
资助金额:8.00
项目类别:面上项目
4

地理信息服务质量模型及质量评价方法研究

批准号:41401462
批准年份:2014
负责人:陈科
学科分类:D0114
资助金额:25.00
项目类别:青年科学基金项目