Existing research for sentiment analysis has achieved significant progress for Chinese and Latin Languages, such as English and Spanish. However, current relevant works still lack the exploration for minority languages. There are several challenges for applying such techniques for minority languages, such as differences of semantic and culture, lack of accurate affective representation, poor coverage of affective lexicons and corpora resource, and low performance of existing deep learning platform. By using a cross-lingual fashion, the project research on key technologies of high performance sentiment analysis for minority languages. From both aspects of algorithm and platform, this project seek to transfer existing methods and resources for Chinese and English to those for other minority languages. Main contents include:. (1) Based on a locally weighted linear regression, this project will propose a cross-lingual method to predict VA ratings of affective words in minority languages. This methods can be used to create affective lexicons to tackle the poor coverage problems by manual marking.. (2) On text-level, a local region-based deep neural network model will be proposed to predict VA values for given texts, which can solve the low accuracy problems in existing analysis methods.. (3) Combined with an asynchronous stochastic gradient descent algorithm, this project will propose a high performance distributed learning mechanism for massive text, to address the low performance problems in multi-core CPU or GPU platform.. Overall, this project hopes to provide a consultative framework of sentiment analysis for minority languages, and build dimensional affective lexicons for Thai and Burmese to implement prototype system for those two languages.
目前文本情感分析主要针对中英文和拉丁语系的语言,缺乏面向小语种的相关研究。小语种的文本情感分析研究面临语义和文化差异、缺乏精确的情感信息表示和语料资源、现有分析平台性能差等问题。项目基于跨语言方法,利用已有的中英文资源和技术,研究小语种的高性能文本情感分析关键技术,从算法和处理平台方面展开研究,具体内容包括:(1)基于局部加权线性回归模型的跨语言方式,实现中英文词汇到小语种词汇的情感值预测,并构建小语种情感词典,解决以往通过人工标记带来覆盖性差的问题;(2)在文本层次,利用基于局部区域的深度神经网络模型,实现小语种文本的情感值预测,解决现有方法预测准确率低的问题;(3)结合分布式异步梯度下降算法,实现海量文本的高性能分布式处理机制,解决现有多核CPU和GPU平台扩展性差的问题。项目希望形成可借鉴的小语种文本情感分析方法,构建面向泰语和缅甸语的连续维度型情感词典,实现文本情感分析的原型系统。
项目基于Valence-Arousal情感空间,利用词嵌入和迁移学习等方法,同时从算法和平台两方面入手,研究高性能维度型文本情感分析技术。项目研究包括面向小语种词汇的跨语言情感值预测、面向小语种文本的连续维度型情感分析和基于异步梯度更新的分布式深度学习架构三个方面的内容。在完成既定目标的基础上,项目将研究内容扩展到了多语种、多粒度情感分析技术,主要包括:(1)利用现有的多语种情感词典资源,在预训练词向量模型、上下文相关的语言模型中嵌入情感信息,获得同时具有语义与情感相关的词向量模型,并基于此研究了词汇级、短语级、句子级、文本级和属性级等多粒度层次的情感分析技术。(2)基于跨语言迁移学习方法,利用已有的中英文资源和技术,探索在预训练语言模型中嵌入个性化信息,研究多语种个性化文本情感分析关键技术。(3)结合分布式异步梯度下降和异构计算资源分配算法,实现了一种海量文本的高性能分布式处理机制,为现有分布式异构深度学习平台扩展提供了一种思路。项目实现了可借鉴的多语种、跨语种文本情感分析方法,构建了多语种连续维度型情感词典,实现了多粒度层次文本情感分析的原型系统。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
面向社交媒体的多语种文本情感分析方法研究
面向聊天机器人的文本情感分析关键技术研究
短文本情感分析关键技术研究
时空文本数据情感挖掘关键技术研究