随着信息时代的到来,政府、商业和企业等机构每天都在产生并积累大量的文本数据,且产生速度呈指数增长。将海量数据进行分类汇集,分析整理,找出规律性的问题,获得有利于政府决策、商业及企业提高竞争力的信息为本课题研究目标。本课题以文本型信息源作为研究对象,主要以市长公开电话这一典型的汉语文本数据为研究样本,针对此类数据具有数据量大、数据维度高及在线实时性需求等显著特征,我们通过运用统计学理论,拟设计符合海量数据及实时数据的分类算法实现自动分类;利用Pearson卡方检验及变量聚类分析方法实现对市民集中关注的热点问题的提取,并进行深入的数据挖掘,通过投诉数据来获得市民的整体需求,并通过构建贝叶斯网和因果关系推断来探询引起这些需求的根源;最后通过建立预测模型,以实现市长公开电话的预警预报功能。最终实现为老百姓提供智能集成服务、为领导决策提供重要参考,并能为处理海量数据提供重要的理论支撑和借鉴价值。
随着信息时代的到来,政府、商业和企业等机构每天都在产生并积累大量的文本数据,且产生速度呈指数增长。本课题研究目标是通过将这些海量数据进行分类汇集,分析整理,并找出规律性的问题,由此获得有利于政府决策、商业及企业提高竞争力的信息。本课题以文本型信息源作为研究对象,主要以市长公开电话这一典型的汉语文本数据为研究样本,针对此类数据具有数据量大、数据维度高及在线实时性需求等显著特征,我们通过运用统计学理论和机器学习方法,主要完成了以下几项工作:. (1)实现文本自动分类功能。为提高海量数据文本分类算法的速度和准确率,我们设计了一种基于汉语文本分类的停用词提取算法,并结合朴素贝叶斯分类器对市长公开电话数据进行文本分类。试验测试表明删除停用词可以显著提高分类速度(提高了近一倍)和准确率(提高4个百分点),目前编写的软件全部使用C++实现,分类速度为1000篇/秒。相应文本分类软件已应用于实际工作,受理员只需记录反映内容即可自动提交给相应的管理部门进行处理,实现了文本的自动分类。 . (2)实现热点事件自动提取功能。利用Pearson卡方检验及变量聚类分析,针对市民在不同时期所集中反映的热点或焦点问题,设计了在汉语文本数据中检测热点事件的方法,并与市长公开电话月报中人工提取的热点事件进行了比较,结果表明我们方法提取的热点事件更快速、更全面。. (3)实现预警预报功能。通过近五年来市民对不同单位诉求量数据变化的分析,构建相对应的季节时间序列模型,然后通过统计推断预测后四周内反映市民诉求流量的变化,并预警提示,各单位可根据预警状态提前开展预防工作。为了进一步研究各单位投诉量间的统计相关性,我们利用函数型聚类分析方法将30个单位五年的诉求量进行聚类分组,分类结果为进一步提高预警预报和文本分类的精度奠定了良好的基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
转录组与代谢联合解析红花槭叶片中青素苷变化机制
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
基于FTA-BN模型的页岩气井口装置失效概率分析
五轴联动机床几何误差一次装卡测量方法
汉语文本推理的资源建设和统计分析研究
汉语文本数据挖掘的统计方法
汉语文本数据挖掘的统计方法
基于语义的汉语新闻文本的零形回指消解研究