维吾尔文网络信息内容分析与理解的关键理论和技术研究

基本信息
批准号:61063022
项目类别:地区科学基金项目
资助金额:25.00
负责人:吐尔地·托合提
学科分类:
依托单位:新疆大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:艾斯卡尔·肉孜,伊克热木·买买提依明,哈妮克孜·伊拉洪,古扎丽努尔·艾木肉拉,帕丽古丽·木合买提,米拉丁江·阿布力米提,买买提依明·哈斯木
关键词:
分类自动摘要文本特征提取聚类Web信息采集维吾尔文
结项摘要

面对迅速增长的WEB数据,如何搜集并从中发现信息,对信息进行分析和理解、提取、组织和处理、如何针对特定的需求获取最新的信息、如何区分有用的信息和无用的"垃圾"信息、如何管理网络信息的传播逐渐成为当前信息科学和技术领域面临的一大挑战。本课题在中英文的新理论、新方法和新技术的基础上,从维吾尔文语言文字特点出发,围绕网络内容分析及理解所涉及的关键理论和技术,开展维吾尔文网路信息的收集和整合(网页采集,文本提取及精化,编码转换,分词,词干切分),文本表示(维吾尔文文本特征提取,特征选取,文本结构化),文本分析(分类,聚类)以及基于统计的维吾尔文网页文档自动摘要等四个方面的研究,建立维吾尔文网络信息内容分析与理解理论体系及技术基础,并通过研发有关算法、工具和平台在相关领域中应用与验证本课题取得的研究成果。

项目摘要

以通用爬虫技术搭建了维吾尔文Web信息获取平台,统计现有国内维吾尔文网站,建立了爬虫地址库,收集了大量Web实验数据。较深入的研究基于标签树的网页主题信息抽取方法,并利用基于Microsoft .Net 框架的标签树构造工具TidyNet开源工具来建立网页集的标签树,实现标签树元集的统计筛选算法,有效提取维吾尔文网页正文内容信息。针对Web文本的三种维吾尔文非Unicode或非标准Unicode编码情况,建立了字符编码转换规则表,并实现了基于规则的维吾尔文字符编码转换方法。针对维吾尔文传统分词方法的缺陷和不足,提出了语义分词的新思路并实现了相应的语义分词算法,从而根本改变了维吾尔文分词的传统概念。将向量空间模型作为主要的文本表示模型,通过语义分词获取的语义词特征来表征文本,提高了特征项本身的质量,降低了特征空间维数。在语义词特征集的基础上,又提出了一种无监督特征选择算法UMRMR-UFS,从而达到了获取最优特征子集的目的。研究了文本分类技术方法及相关算法,实现了一个多种预处理、多种特征选择及多种分类器(KNN,SVM,NB)可选的维吾尔文文本分类系统。研究了最典型的聚类算法K-means和GAAC,在两种算法的优缺点上找到了一种巧妙的结合,从而设计并实现了一种K-means和GAAC结合的维吾尔文文本聚类算法,结合算法在大规模文本聚类中体现出比单独K-means和GAAC更优越的综合性能。研究了基于统计的自动摘要技术及基于图的文摘算法LexRank,针对LexRank计算文摘句权重时的局限性,引入了Textrank算法,并用关键词权重来调整文摘句权重,从而实现了一种基于LexRank和Textrank结合的维吾尔文自动摘要提取算法。最终,将本课题所取得的研究成果(算法、工具和平台等)嵌入到一个应用平台上,搭建了一个维吾尔文网络信息内容分析与理解系统平台——《维吾尔文网络舆情监测预警系统》。经过项目实施,培养博士生1人,硕士生4人,青年教师2人,构建了多个资源库,开发了多个算法,工具和平台,已发表学术论文8篇(EI收录2篇),计算机软件著作权登记4项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021
2

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
3

三级硅基填料的构筑及其对牙科复合树脂性能的影响

三级硅基填料的构筑及其对牙科复合树脂性能的影响

DOI:10.11951/j.issn.1005-0299.20200093
发表时间:2020
4

采用深度学习的铣刀磨损状态预测模型

采用深度学习的铣刀磨损状态预测模型

DOI:10.3969/j.issn.1004-132x.2020.17.009
发表时间:2020
5

混采地震数据高效高精度分离处理方法研究进展

混采地震数据高效高精度分离处理方法研究进展

DOI:10.3969/j.issn.1000-1441.2020.05.004
发表时间:2020

吐尔地·托合提的其他基金

批准号:61262062
批准年份:2012
资助金额:46.00
项目类别:地区科学基金项目
批准号:61562083
批准年份:2015
资助金额:39.00
项目类别:地区科学基金项目

相似国自然基金

1

维吾尔文WEB舆情挖掘的关键理论及技术研究

批准号:61163033
批准年份:2011
负责人:艾斯卡尔·艾木都拉
学科分类:F0211
资助金额:53.00
项目类别:地区科学基金项目
2

维吾尔文网络社会集群行为感知的关键技术研究

批准号:61762085
批准年份:2017
负责人:刘淑娴
学科分类:F0205
资助金额:38.00
项目类别:地区科学基金项目
3

维吾尔文印刷文档图像中不良信息过滤关键技术研究

批准号:61461049
批准年份:2014
负责人:地里木拉提·吐尔逊
学科分类:F0116
资助金额:40.00
项目类别:地区科学基金项目
4

维吾尔文不良信息过滤关键技术的研究

批准号:61063043
批准年份:2010
负责人:帕力旦·吐尔逊
学科分类:F0205
资助金额:27.00
项目类别:地区科学基金项目