As the Big-Data era comes, the search results presented by state-of-art information search service appear the characteristic of information overload. Simultaneously, with the deepening application of users and limitations of browsing duration and space, how to present users with more diversified information becomes an important fact affecting search quality. Existing methods show the shortages on both effectiveness and efficiency. Thereafter, this project focuses on the following aspects: (1) Designing a novel model of information diversity metric including information coverage (containing information structure) and information redundancy; (2) Evaluating existing diversification methods with the proposed metrics model; (3) Designing an efficient heuristic method of extracting diversified information; (4) Experimental design on large-scaled data sets. This project tries to not only propose a metric model but design an extraction method to better fulfill the requirements of advanced search service in the Big-Data era.
随着大数据时代的不断临近,信息搜索服务所提供的搜索结果也呈现信息过载的特征。同时,随着信息搜索用户的深度应用,且浏览时间和空间的约束,如何在有限的第一页搜索结果中呈现给用户更具多样性的信息,逐渐成为了一个影响搜索体验和信息搜索服务质量的重要因素。信息多样性包括信息覆盖和信息冗余两个方面,而已有的研究更多着眼在信息内容覆盖而忽略了信息结构覆盖这一重要测度,且目前已有方法也存在结果不够理想和效率不高等缺陷。因此,本项目计划从以下几个方面入手进行研究:(1)设计考虑信息结构的信息覆盖度和信息冗余度的多样性测度模型;(2)应用多样性测度对多样性信息提取方法进行评估和比较;(3)设计一种高效的启发式多样性信息提取方法:(4)通过大规模搜索数据实验验证测度模型和提取方法的有效性。通过本项目所提出的测度模型和提取方法能更好地适应大数据环境下的深度多样性信息搜索服务的要求。
随着大数据时代的到来,信息搜索服务所提供的搜索结果也呈现信息过载的特征,并给有效信息搜索的信息提取带来新的挑战,并进一步影响到基于信息搜索的相关管理决策和服务应用,如在线评论分析,在线推荐效果,搜索与评论UGC的深度应用等。本项目集中在此方面进行探讨,并取得了如下几方面的研究成果:第一,在大数据背景下的代表性信息测度模型与提取方法的研究上,提出并设计了一整套Representativeness的测度指标体系,为代表性信息提取研究提供了有效理论模型;设计了REPSET代表性信息提取算法,具有更好的效度和计算缩放性;设计了高效的启发式FastCovC+S-Select算法。第二,在在线推荐与在线评分分析的研究上,提出来用户评论的偏好测度分析框架,并设计了效果更优的个性化推荐方法UPCF;针对实际在线评论的高噪音、高稀疏和有偏的现象,设计了引入全体分布特征eSOP方法。第三,在基于搜索大数据整合的应用研究中,提出了基于搜索引擎场景的竞争性测度模型和分析框架;提出了基于二部图的BCG 算法和引入主题建模的TCK算法,可以更为有效地提炼得到竞争对象和竞争度,具有极强的新颖性和商业实用价值。本项目研究取得了较为满意的学术成果,相关成果发表在如MISQ,INFORMS JoC,ACM TKDD,Decision Sciences等本领域顶级期刊上。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于被动变阻尼装置高层结构风振控制效果对比分析
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于改进LinkNet的寒旱区遥感图像河流识别方法
信息熵-保真度联合度量函数的单幅图像去雾方法
血管内皮细胞线粒体动力学相关功能与心血管疾病关系的研究进展
多层QoS约束支持的遥感信息服务个性化搜索方法
物联网实时信息搜索与服务技术的研究
茶蚜天敌搜索利它素作用机制的生物多样性
地理信息服务质量模型及质量评价方法研究