Web opinion mining mines and analyzes the type of texts including blogs, micro blogs to online reviews from WWW automatically.With the rapid development of Web 2.0, opinion mining has become a hot research topic in the fields of intelligent information processing, data mining, computational linguistics, etc.This proposal will focus on some of the challenges problems of opinion mining including Sentimental lexicon construction, Fine-grained opinion mining and Opinion retrieval. In accordance with accuracy of overall system and dependency of sentimental feed, we proposed a Graph-based Coupled Building Approach for Domain Sentiment, Entity and Attribute Lexicon including three approaches to construct graph of sentiment words.Feature space of fine-grained opinion mining is usually very large whereas the scale of training dataset is relatively small and the sparsity is obvious. Therefore, we study and proposal the approach for fine-grained opinion mining task based on tree kernels. With regard to the key question of design in tree kernel spaces, it proposes varius types of tree kernel spaces, followed by combining the above tree kernels with polynomial kernel. Concerning the massive opinion text, a topic-opinion mixture model for opinion retrieval in the light of the specific characteristic of opinion retrieval comparing with traditional IR. The problem with fusion of results of retrieval and sentiment classification in traditional two-stages processing which has little theoretical basis is solved. A prototype system of opinion system is also proposed and will be evaluated by TREC datasets.
Web文本意见挖掘通过自动的方法对博克、微博、在线评论等新媒体文本信息进行挖掘和分析。随Web 2.0快速发展,它是智能信息处理、数据挖掘、计算语言学等领域的一个研究热点。本项目主要研究情感词典构建、细粒度意见挖掘方法和意见检索模型等关键技术。针对情感词典构造的整体准确率和基准词依赖性问题,研究基于图的耦合半监督情感词典及领域词典构造方法。针对向量模型在细粒度意见挖掘存在特征稀疏,无法表示结构特征的问题,提出基于树核的细粒度意见挖掘方法,并针对意见两阶段任务设计多种树核空间,将树核与多项式核进行组合。针对文本意见检索,研究文本检索结果和情感分类结果的融合方法,研究新的主题意见混合模型,该方法解决了传统两阶段处理所带来的检索结果和情感分类结果的融合问题,更具理论基础。此外,项目将设计实现一个原型检索系统,并通过TREC所提供的公开数据验证其有效性。
Web 文本意见挖掘通过自动的方法对博客、微博、在线评论等新媒体文本信息进行挖掘和分析。随Web 2.0 快速发展,它是智能信息处理、数据挖掘、计算语言学等领域的一个研究热点。本项目主要研究Web文本意见挖掘中情感词典构建和意见检索模型等关键技术,围绕课题的任务和目标,本课题的主要成果包括:(1)采用混合语言模型理论,提出基于主题意见混合模型的意见检索方法。该模型假设主题模型与意见模型具有一定的关联性,即每个主题都有特定的意见模型,不同主题具有不同的意见模型。基于主题意见混合模型的意见检索方法,能更好的解决传统信息检索技术和情感分类技术的融合问题。我们的方法不需要任何标记数据。(2)针对情感词典构建存在的算法领域自适应性、种子词依赖性和准确率不高问题,提出了一种基于约束标签传播的领域情感词典自动构建方法。该方法针对情感词的领域性,利用组块依存树和先验通用情感词典抽取领域候选情感词和短语,通过分析领域评论文本中存在的局部上下文情感的一致性和转折性,以及情感词之间的词法关系,定义和抽取情感词之间的上下文和词法情感倾向约束关系,能够增强情感词之间领域依赖的情感关联相似度。采用约束传播算法能够有效地将局部约束关系传播到全局情感词空间,从而解决了局部约束关系的稀疏性问题;最后使用半监督的标签传播算法,在融合先验约束知识的同时,计算候选词的情感倾向性,构建领域情感词典。(3)开展了检索推荐模型等相关研究并设计实现一个文本意见检索原型系统,通过实验验证了相关方法的有效性。. 针对上述研究,课题组已公开发表SCI检索论文2篇,EI国际会议论文8篇,软件系统1套;另外,录用SCI论文1篇,会议论文3篇,申请专1个,并有2篇论文待投,培养研究生多名,完成了项目目标,并为后续研究提供了较好的基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
面向Web主观性文本意见挖掘研究
汉语解释性意见挖掘关键技术研究
细颗粒度汉语文本意见挖掘方法的研究
自适应的中文网络意见挖掘关键技术研究