With the rapid growth of e-commerce and web2.0 applications, an enormous number of product reviews has emerged, which not only helps the consumers find the information on the products in decision making, but also enables the enterprises to listen to consumers and to improve their products. It has become meaningful to extract a small set of reviews, as reading through all the reviews is neither practical nor interesting. In practice, ranking criteria, such as hotness, freshness, usefulness, are widely used by many online information search services, to provide the highly-ranked ones to consumers, however, such an ordered list of reviews does not necessarily represent all different viewpoints (e.g., positive vs. negative) of the products. This study attempts to extract representative opinions in product reviews for enterprises, which covers the information content of the reviews as much as possible, and at the same time minimizes the redundancy. Then the extraction of representative opinions is formulated as an optimization problem based on an aggregator measure of coverage and redundancy. This study focuses on the following four aspects, i.e., the framework of extracting representative opinions, the formulation of opinions in terms of feature and opinion polarity, the algorithm and the evaluation of the approach. Experimental evaluation on real data and users will be conducted to verify the value of the proposed approach.
大量商品评论伴随着网络购物市场的繁荣和Web2.0应用的兴起而到来,它们反映着商品的口碑,不仅能够帮助顾客进行购物决策,也给企业了解顾客的意见开辟了新的途径。如何在大量的商品评论中提取代表性意见,已经引起了学术界和业界的广泛关注。目前商品评论通常是为了满足顾客的需求,根据热度、新鲜度、有用性等指标对评论进行排序,但这不一定能得到丰富多样的意见。本研究从企业的应用需求出发,目标是提取能尽可能多的覆盖意见总体的信息、有尽可能少的信息冗余的代表性意见集合。研究以信息抽取策略为主线,以意见挖掘和情感分析领域的方法为补充,增进对意见文本的理解,使得提取出的代表性意见能够有效的反映不同方面的意见。具体工作围绕四方面展开:(1)代表性意见提取的理论框架;(2)意见文本的表示;(3)代表性意见提取的方法;(4)代表性意见的验证。研究注重基于真实数据和用户实验进行验证,相关工作兼具理论创新意义和实践价值。
本项目的目标是解决商品评论中的信息过载问题,具体的是在大量的商品评论中提取具有代表性的意见,使之代表尽可能多的评论中的意见,同时又有效的反映各种不同的意见。本项目的主要研究内容包括:对相关方法进行了全面的综述;明确代表性意见的内涵,对代表性意见的提取进行科学问题描述;针对上述各种代表性意见提出相应的提取方法;对提出的各种方法进行验证。本文的主要成果是,描述了在不同情境下的代表性意见的内涵和扩展形式,高覆盖度和低冗余是代表性意见最基本的性质,在其它情况下还可能有其它的要求,比如内容分布与原集合的一致性;针对各种形式的代表性意见开发出有效的提取方法,包括启发式方法和基于聚类的方法;使用实际的商品评论数据对各种方法的效果和效率进行验证和对比,开展用户实验获取人们对本项目提出的方法的评价。在天猫、亚马逊等商品评论数据上进行的数据实验表明,本项目提出的代表性信息提取方法在各自目标上的有效性,即能够使提取的代表性集合代表尽可能多的意见,同时又有效的反映各种不同的意见;其中一个方法还能保证内容分布与原集合的一致。用户实验结果也表明,人们认为使用本项目提出的方法提取的代表性集合在高覆盖度、低冗余度上都优于基准方法,并且这些代表性集合能够帮助人们做出知情决定。相关成果不仅为解决商品评论领域的文本信息过载提供了解决方法,还可以拓展到其它出现文本信息过载的领域,比如帮助网络搜索用户理解大规模的文本检索结果,帮助分析和总结互联网上涌现的大量的舆情信息。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于情感分析的产品评论意见挖掘研究
面向商品供应链重组与协调的企业组织理论
虚假商品评论对消费者购买决策的影响研究
基于文本语义挖掘的商品评论信息可信度分析研究