维吾尔文WEB舆情挖掘的关键理论及技术研究

基本信息
批准号:61163033
项目类别:地区科学基金项目
资助金额:53.00
负责人:艾斯卡尔·艾木都拉
学科分类:
依托单位:新疆大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:卡米力·木依丁,米吉提·阿不力米提,古丽娜尔·艾力,姑丽加玛丽,伊克热木·买买提依明,热合木·马合木提,赛尔达尔·雅力坤,艾海麦提江·阿布来提,古孜丽塔吉·乃拜
关键词:
文本挖掘网络舆情舆情识别维吾尔文舆情分析
结项摘要

网络己成为公众表达民意、讨论公共事务、公开表述对社会现象的看法、意见、情绪和态度,参与经济社会、政治生活的公共平台以及舆情产生和扩散传播的一个重要空间的今天,如何从海量WEB数据中主动获取热点、焦点话题,分析和理解并从中发现舆情信息,如何及时发现及跟踪舆情热点是当前信息科学和技术领域面临的一大挑战。本课题在中英文的新理论、新方法和新技术的基础上,从维吾尔文语言文字特点出发,围绕网络舆情挖掘所涉及的关键理论和技术,开展维吾尔文WEB信息的采集及处理(WEB数据源获取,WEB页面文本提取及精化,文本编码转换,新老文字转换,分词,词干切分),文本表示(文本特征提取,文本结构化),舆情识别(舆情分类,聚类),舆情分析(舆情观点提取,舆情观点倾向性分析)等4个方面的研究,建立维吾尔文网络舆情信息挖掘的理论体系及技术基础,并通过研发有关算法、工具和试验平台,在相关领域中应用与验证本课题取得的研究成果。

项目摘要

本课题从维吾尔文语言文字特点出发,围绕网络舆情挖掘所涉及的关键理论和技术,开展了以下几个方面的探索性、创新性研究。研究了增量化采集和动态访问控制环境下的Web主动探测与智能采集方法,搭建了大规模分布式采集系统。建立了新老文字转换规则库,研究并实现了一种基于规则的新、老文(维吾尔语拉丁文转维吾尔语阿拉伯文)自动转换方法。针对维吾尔文传统分词方法的缺陷和不足,提出了语义分词的新思路并实现了相应的语义分词算法,以语义词作为特征并提出一种无监督特征选择方法选取特征子集来表示文本,从而明显提高了文本处理算法性能。研究几种经典文本分类器(KNN,SVM,NB),通过实验对比为维吾尔文选取最佳分类器并确定各类参数。研究了最典型的聚类算法K-means和GAAC,在两种算法的优缺点上找到了一种巧妙的结合,从而设计并实现了一种K-means和GAAC结合的维吾尔文文本聚类算法,结合算法在大规模文本聚类中体现出比单独K-means和GAAC更优越的综合性能。建立了维吾尔文情感词典,研究了维吾尔文区分性关键词提取方法,并在此基础上实现了维吾尔文文本情感分类方法。根据维吾尔文命名实体结构特点,建立了维吾尔文命体库(人名:975660个,地名:193122个,组织机构名:142889个),还有首词库、中间词库和特征词库等,研究了基于规则和条件随机场的维吾尔地名、人名识别方法。研究了基于统计的自动摘要技术及基于图的文摘算法LexRank,针对LexRank计算文摘句权重时的局限性,引入了Textrank算法,并用关键词权重来调整文摘句权重,从而实现了一种基于LexRank和Textrank结合的维吾尔文自动摘要提取算法。经过项目实施,培养博士生2人,硕士生6人,青年教师2人,构建了多个资源库,开发了多个算法,工具和平台,已发表学术论文10篇(EI收录3篇),计算机软件著作权登记6项。最终,将本课题所取得的研究成果(算法、工具和平台等)嵌入到一个应用平台上,搭建了一个维吾尔文网络舆情挖掘系统平台——《维吾尔文网络舆情监测预警系统》,已为我区相关部门提供网络舆情监测服务,为网监工作提供一种自动化手段,起到了积极作用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
2

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

DOI:10.6041/j.issn.1000-1298.2022.07.022
发表时间:2022
3

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

DOI:10.11842/wst.20190724002
发表时间:2020
4

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

DOI:10.7498/aps.68.20181682
发表时间:2019
5

铁路大跨度简支钢桁梁桥车-桥耦合振动研究

铁路大跨度简支钢桁梁桥车-桥耦合振动研究

DOI:10.3969/j.issn.1000-0844.2017.05.0820
发表时间:2017

艾斯卡尔·艾木都拉的其他基金

批准号:60662002
批准年份:2006
资助金额:24.00
项目类别:地区科学基金项目
批准号:61065005
批准年份:2010
资助金额:26.00
项目类别:地区科学基金项目
批准号:61563049
批准年份:2015
资助金额:39.00
项目类别:地区科学基金项目
批准号:60507005
批准年份:2005
资助金额:16.00
项目类别:青年科学基金项目

相似国自然基金

1

面向海量文本的维吾尔文命名实体识别关键理论及技术研究

批准号:61562083
批准年份:2015
负责人:吐尔地·托合提
学科分类:F0211
资助金额:39.00
项目类别:地区科学基金项目
2

维吾尔文命名实体识别关键技术研究

批准号:61262060
批准年份:2012
负责人:艾山·吾买尔
学科分类:F0211
资助金额:45.00
项目类别:地区科学基金项目
3

维吾尔文手写签名识别与验证的关键技术研究

批准号:61163028
批准年份:2011
负责人:库尔班·吾布力
学科分类:F0605
资助金额:52.00
项目类别:地区科学基金项目
4

维吾尔文网络社会集群行为感知的关键技术研究

批准号:61762085
批准年份:2017
负责人:刘淑娴
学科分类:F0205
资助金额:38.00
项目类别:地区科学基金项目