This project regards Uyghur web texts as the research object. Our research methods are based on the theory of computational linguistics and artificial intelligence, closely combine the language laws of Uyghur, construct the construction standard of corpus for Uyghur opinioned texts, establish corpus for Uyghur opinioned texts. This project proposes and realizes the fine-grained opinion mining methods which are suitable for Uyghur opinioned texts. Our research methods will develop the comprehensive advantages of statistics and natural language processing methods, in order to achieve the purpose of mining the available fine-grained information and knowledge to a maximum extent. This project studies the fine-grained opinion mining methods for the first time in the Altaic family at home and abroad. It has a certain degree of particularity and innovation, and can fill in the gaps of minority language information processing research in our country. This project will make an important influence and significance at home and abroad, and it is a great subject to be solved. The research results can provide applications for other natural language processing systems, such as text categorization, automatic summarization, question answering system, machine translation, etc. Our research can be widely applied to many areas of our daily life, such as ecommerce, business intelligence, information monitoring, public opinion poll, e-learning, newspaper and publication compilation, business management, etc. Furthermore, it can lay a solid theoretical and practical foundation for language information processing of Uyghur.
本项目以互联网上的维吾尔语网络文本为研究对象,以计算语言学和人工智能理论为基础,紧密结合维吾尔语语言规律,建立维吾尔语意见型文本语料库的构建规范,创建维吾尔语意见型文本语料库;提出并实现适合于维吾尔语意见型文本的细颗粒度意见挖掘方法;所采用的研究方法将发挥统计和自然语言处理方法的综合优势,以达到最大程度地挖掘可用的细颗粒度信息和知识的目的。本项研究在国内外阿勒泰语系中首次研究细颗粒度维吾尔语文本意见挖掘方法,具有一定的特殊性和创新性,弥补我国少数民族语言信息处理研究的空白,有着重大国内外影响和意义,是目前亟待解决的重大课题。研究成果不仅可以提供给其它自然语言处理系统(应用)使用,如文本分类、自动摘要、问答系统、机器翻译等;还可应用于许多日常生活的领域,如电子商务、商业智能、信息监控、民意调查、电子学习、报刊编辑、企业管理等,为维吾尔语语言信息处理研究打下扎实的理论和实践基础。
项目总体进展顺利,所有研究计划已按要求完成,达到预期目标。特别是:.1) 收集了包含新闻评论、人物评论以及产品评论等领域的生语料,标注了包含一般型和比较型意见句在内的13 990个意见句,为了将非结构化意见文本转化为结构化表示,采用系统性、一致性的解决方案,规范文本的标注。开发了维吾尔语情感语料辅助整理软件。.2)隐式主题抽取方面:结合维吾尔语语法规则和特征,提出了隐式主题推断算法,不仅考虑了当前意见陈述中的意见词,还考虑了与前一陈述主题的关系、当前陈述的局部主题和全局主题。最终为每个意见陈述建立意见陈述-主题四元组 。特定领域和开放领域的各项实验评价指标均在70%以上, 说明了方法的有效性。.3)意见持有者抽取方面:提出一种细粒度的三层模型抽取意见持有者。采用CRFs模型,结合人工启发式规则和维吾尔语命名规则,识别评论中的所有候选意见持有者。然后根据分类算法,将意见句分为四个不同类别,并对相应的意见持有者类型分别提出不同的抽取方法。引入扩展规则修正意见持有者结果。实验结果显示,平均准确率达到80.14%,平均召回率达到84.39%,证明方法的有效性。.4)多陈述的定界方面:提出了一种基于Bootstrapping算法的陈述定界方法。在每一次迭代过程中,根据改进的评分公式选取最优模式抽取主题词-意见词对;迭代结束后,对于主题-意见词对为空的评论语句,使用最近匹配算法抽取主题-意见词对;用并联模式和否定模式对抽取的主题-意见词对进行扩展和修正。.5)隐式情感分析方面:提出基于条件随机场模型的隐式情感分析方法。利用互信息衡量上下文的依赖度,结合词法、语境依赖词、标点符号和习语等特征用于隐式情感分析。在特征选择时,通过对信息增益进行改进,解决语料中数据集不平衡的问题。方法用于维吾尔语文本隐式情感分析的准确率为77.11%,召回率为78.37%。.6)比较型意见的挖掘方面,比较句及比较类型识别是细粒度意见挖掘的重要组成部分。通过对维吾尔语比较句特征的深层次分析,提出基于规则的双向CSR挖掘算法。算法能有效的减少无效比较模式,同时利用规则提升实验性能。对于类型识别,利用有序比较关键词策略进行类型识别,实验F值达到70.93%,证明模型的有效性。.发表论文16篇,其中EI 收录源期刊论文7篇,中文核心期刊论文9篇(中文信息学报5篇);获软件著作权9项;获省部级优秀论文1项。
{{i.achievement_title}}
数据更新时间:2023-05-31
低轨卫星通信信道分配策略
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
甘肃省粗颗粒盐渍土易溶盐含量、电导率与粒径的相关性分析
不同分子分型乳腺癌的多模态超声特征和临床病理对照研究
细颗粒度汉语文本意见挖掘方法的研究
面向Web主观性文本意见挖掘研究
Web文本意见挖掘关键技术研究
基于移进归约算法的细粒度意见挖掘