Domain adaptation in sentiment classficaition have been a frontier research direction in recent years in the field of natural language processing. "Instance adaptation" and "labeling adaptation" are two basic factors in the domain adaptation problem. "Labeling adaptation" has received wide attention and in-depth study. However, since density ratio is hard to estimate, "instance adaptation" has not been well studied in the literature. In this project, we are going to conduct research in three aspects: Firstly, we transform density ratio estimation into the problem of similarity measure between a sample and a distribution, and proposed a PU learning based approach to address this problem. Secondly, based on the similarities obtained by PU learning, we study the issues of sample selction and importance sampling for instance adaptation; Finally, we extend the task from one source to multiple source domains, and study correspoonding domain adaptation methods. The implementation of this project will help promote the research of cross-domain sentiment classification, which is a fundamental problem of text mining on the "big-data" Internet.
情感分析领域适应问题是近几年来自然语言处理领域的前沿问题和研究热点。在领域适应问题的研究中,存在"重标注迁移、轻实例迁移"的现象:标注迁移已经得到了广泛关注和深入研究;而实例迁移受制于概率比估计的难题,成为相对薄弱的环节和空白的地带。本项目针对上述状况,主要开展下列三方面的工作:1、针对实例迁移展开深入研究。将概率比估计问题转化为样本与分布的相似度计算问题,提出基于PU学习的源领域样本与目标领域相似度计算方法;2、基于该相似度,研究跨领域统计建模中的样本选择和权重采样方法,建立完善的基于实例迁移的领域适应模型;3、最后将问题扩展到多个源领域,探讨基于多源领域协同的情感分析领域适应方法。本项目预计在国内外重要学术期刊和顶级国际会议上发表论文不少于6篇。本项目的完成将有助于推动"大数据"背景下面向互联网海量和多源文本的情感分析方法的研究,具有重要的理论意义和应用价值。
情感分析领域适应问题是近几年来自然语言处理领域的前沿问题和研究热点。在领域适应问题的研究中,存在"重标注迁移、轻实例迁移"的现象:标注迁移已经得到了广泛关注和深入研究;而实例迁移受制于概率比估计的难题,成为相对薄弱的环节和空白的地带。本项目针对上述状况,主要开展下列三方面的工作:1、针对实例迁移展开深入研究。将概率比估计问题转化为样本与分布的相似度计算问题,提出源领域样本与目标领域相似度计算方法和基于样本选择和权重采样的领域适应方法,建立完善的基于实例迁移的领域适应模型;2、将问题扩展到多个源领域,探讨基于多源领域协同的情感分析领域适应方法;3、研究基于大数据环境的社交网络文本情感分析和领域适应问题。受到项目资助,一共发表论文12篇,其中以一作身份发表了5篇领域国际顶级期刊或会议论文(如IEEE TKDE, ACL, IJCAI, AAAI等),申请国家发明专利3项,软件著作权登记1项。本项目的完成将有助于推动"大数据"背景下面向互联网海量和多源文本的情感分析方法的研究,具有重要的理论意义和应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于深度迁移学习的跨领域文本情感分类方法研究
基于情感知识库构建、领域适应和终身学习的社交媒体情感分析方法
基于领域知识的主题分析和文本结构分析技术研究
短文本情感分析关键技术研究