中文情感资源自动构建的关键技术研究

基本信息
批准号:61300156
项目类别:青年科学基金项目
资助金额:23.00
负责人:徐戈
学科分类:
依托单位:闽江学院
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:吴拥民,李佐勇,刘燕,林亚明,张祖昌,王润鸿
关键词:
极性偏移情感分析汉字情感资源自动构建极性非对称性
结项摘要

Sentiment analysis is the hotspot of computational linguistics in recent years, and sentiment resource is the basis on which sentiment analysis is developed. At present, Chinese sentiment resource is inadequate, and the quality is supposed to be better. Furthermore, for a new domain, existing sentiment resource is often not enough and even not applicable. This project aims at automatically building Chinese sentiment resource of high quality and of high coverage from any large-scale unlabeled corpus. We will research on four issues:(1) Propose a sentiment model for automatic processing, which can covers a variety of sentiment categories, sentiment characteristics; use True/False judgment questions to design sentiment annotation specification, making the annotating clear, operable, and resulting in high consistency. (2) Propose a method for polarity classification based on asymmetry, which can identify the polarity of an opinion using unlabeled corpus. This method can also utilize contextual information to improve polarity classification.(3) Provide the sentiment propagation strategy between Chinese characters and words based on word formation analysis, which are particularly effective in the lack of statistical information. (4)Extract typical polarity shifting(negation,adversative conjunction etc.) patterns from any large-scale corpus using text sequence mining algorithms.

情感分析是目前计算语言学领域的研究热点,而情感资源是支撑情感分析的基础。目前,中文情感资源相对匮乏,质量也不高;此外,当领域变化后,已有的资源往往不够充分甚至不适用。本项目旨在从大规模无标注语料中快速自动构建质量高、覆盖度广的情感资源,将从如下四个方面展开研究:(1)提出适合文本自动处理的情感模型,能覆盖各种情感粒度、情感特性;采用判断题形式(从语料中自动挖掘)设计情感标注规范,使得标注过程清晰、可操作,标注结果一致性强。(2)提出基于非对称性的极性判断方法,能使用无标注语料自动判别观点的极性。该方法还能考虑上下文信息,从而更加准确地判断极性。(3)构建汉字情感资源。此外,结合构词法的研究,提供汉字和单词之间的情感传播方案,应用于统计信息较少时的单词情感推断。(4)采用序列挖掘算法抽取出典型的极性偏移模式(否定、转折等)。

项目摘要

近些年,文本情感分析一直是计算语言学领域的研究热点。典型的文本情感分析任务包括产品评论分析、网络舆情分析、情感摘要、基于观点的信息检索等。随着各种文本信息迅速增长,文本情感分析涉及的领域越来越多,研究的层次也越来越深入。. 几乎所有的情感分析任务都离不开高质量的情感资源。准确地判断一个语言单位的主观性、极性或者情绪类别,是实施高质量情感分析系统的基础。. 本项目对中文情感资源构建中的关键问题进行研究。侧重于从大规模无标注语料中快速自动构建质量高、覆盖度广的情感资源,将从如下四个方面展开研究:(1)提出适合文本自动处理的情感模型,能覆盖各种情感粒度、情感特性;采用判断题形式(从语料中自动挖掘)设计情感标注规范,使得标注过程清晰、可操作,标注结果一致性强。(2)提出基于非对称性的极性判断方法,能使用无标注语料自动判别观点的极性。该方法还能考虑上下文信息,从而更加准确地判断极性。(3)构建汉字情感资源。此外,结合构词法的研究,提供汉字和单词之间的情感传播方案,应用于统计信息较少时的单词情感推断。(4)采用序列挖掘算法抽取出典型的极性偏移模式(否定、转折等)。. 在情感分析各种标注实践中我们发现,清晰的情感定义对标注的质量有着巨大的影响。如果要启动大规模人力进行语料标注,必须把标注难度降到极低,才有可能快速部署大规模的标注和检验,从而产生大规模的优质标注数据(可能非常简单,但必须高质量)。采用序列挖掘抽取极性偏移的工作在本项目中顺利完成并形成论文《Extracting Chinese polarity shifting patterns from massive text corpora》等,证明了序列挖掘在抽取高频单词序列(包含间隔)模式的有效性。该方法还可以用于情感表达、对比模式等的抽取。基于非对称性的极性判定方法在本项目申请前已基本完成,后续的扩展工作主要是针对低频单词的极性判断。此项工作与汉字情感标注联系紧密,后者希望通过汉字的情感推知单词的情感。在研究中发现,低频单词相似度的计算仍然是无法回避的问题,需要深入研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

徐戈的其他基金

批准号:71704052
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

中文文本自动分类关键技术研究

批准号:60573187
批准年份:2005
负责人:孙茂松
学科分类:F0211
资助金额:26.00
项目类别:面上项目
2

情感驱动的人机交互中文本语音情感信息耦合关键技术研究

批准号:61203315
批准年份:2012
负责人:孙晓
学科分类:F0604
资助金额:24.00
项目类别:青年科学基金项目
3

中文语义依存分析资源构建及分析技术研究

批准号:61170144
批准年份:2011
负责人:邵艳秋
学科分类:F0211
资助金额:55.00
项目类别:面上项目
4

基于网络的情感语义词典的自动构建技术研究

批准号:61461045
批准年份:2014
负责人:田芳
学科分类:F0113
资助金额:45.00
项目类别:地区科学基金项目