基于汉语文本数据的统计分析

基本信息
批准号:11126080
项目类别:数学天元基金项目
资助金额:3.00
负责人:郝立丽
学科分类:
依托单位:东北林业大学
批准年份:2011
结题年份:2012
起止时间:2012-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:马淑芳,谭畅
关键词:
Pearson卡方检验贝叶斯网市长公开电话
结项摘要

随着信息时代的到来,政府、商业和企业等机构每天都在产生并积累大量的文本数据,且产生速度呈指数增长。将海量数据进行分类汇集,分析整理,找出规律性的问题,获得有利于政府决策、商业及企业提高竞争力的信息为本课题研究目标。本课题以文本型信息源作为研究对象,主要以市长公开电话这一典型的汉语文本数据为研究样本,针对此类数据具有数据量大、数据维度高及在线实时性需求等显著特征,我们通过运用统计学理论,拟设计符合海量数据及实时数据的分类算法实现自动分类;利用Pearson卡方检验及变量聚类分析方法实现对市民集中关注的热点问题的提取,并进行深入的数据挖掘,通过投诉数据来获得市民的整体需求,并通过构建贝叶斯网和因果关系推断来探询引起这些需求的根源;最后通过建立预测模型,以实现市长公开电话的预警预报功能。最终实现为老百姓提供智能集成服务、为领导决策提供重要参考,并能为处理海量数据提供重要的理论支撑和借鉴价值。

项目摘要

随着信息时代的到来,政府、商业和企业等机构每天都在产生并积累大量的文本数据,且产生速度呈指数增长。本课题研究目标是通过将这些海量数据进行分类汇集,分析整理,并找出规律性的问题,由此获得有利于政府决策、商业及企业提高竞争力的信息。本课题以文本型信息源作为研究对象,主要以市长公开电话这一典型的汉语文本数据为研究样本,针对此类数据具有数据量大、数据维度高及在线实时性需求等显著特征,我们通过运用统计学理论和机器学习方法,主要完成了以下几项工作:. (1)实现文本自动分类功能。为提高海量数据文本分类算法的速度和准确率,我们设计了一种基于汉语文本分类的停用词提取算法,并结合朴素贝叶斯分类器对市长公开电话数据进行文本分类。试验测试表明删除停用词可以显著提高分类速度(提高了近一倍)和准确率(提高4个百分点),目前编写的软件全部使用C++实现,分类速度为1000篇/秒。相应文本分类软件已应用于实际工作,受理员只需记录反映内容即可自动提交给相应的管理部门进行处理,实现了文本的自动分类。 . (2)实现热点事件自动提取功能。利用Pearson卡方检验及变量聚类分析,针对市民在不同时期所集中反映的热点或焦点问题,设计了在汉语文本数据中检测热点事件的方法,并与市长公开电话月报中人工提取的热点事件进行了比较,结果表明我们方法提取的热点事件更快速、更全面。. (3)实现预警预报功能。通过近五年来市民对不同单位诉求量数据变化的分析,构建相对应的季节时间序列模型,然后通过统计推断预测后四周内反映市民诉求流量的变化,并预警提示,各单位可根据预警状态提前开展预防工作。为了进一步研究各单位投诉量间的统计相关性,我们利用函数型聚类分析方法将30个单位五年的诉求量进行聚类分组,分类结果为进一步提高预警预报和文本分类的精度奠定了良好的基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

转录组与代谢联合解析红花槭叶片中青素苷变化机制

转录组与代谢联合解析红花槭叶片中青素苷变化机制

DOI:
发表时间:
3

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

DOI:10.3799/dqkx.2020.083
发表时间:2020
4

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
5

五轴联动机床几何误差一次装卡测量方法

五轴联动机床几何误差一次装卡测量方法

DOI:
发表时间:

郝立丽的其他基金

相似国自然基金

1

汉语文本推理的资源建设和统计分析研究

批准号:61173062
批准年份:2011
负责人:姬东鸿
学科分类:F0211
资助金额:58.00
项目类别:面上项目
2

汉语文本数据挖掘的统计方法

批准号:10926186
批准年份:2009
负责人:郭建华
学科分类:A0402
资助金额:10.00
项目类别:数学天元基金项目
3

汉语文本数据挖掘的统计方法

批准号:10826110
批准年份:2008
负责人:郭建华
学科分类:A0403
资助金额:10.00
项目类别:数学天元基金项目
4

基于语义的汉语新闻文本的零形回指消解研究

批准号:61602044
批准年份:2016
负责人:蒋玉茹
学科分类:F0211
资助金额:18.00
项目类别:青年科学基金项目