特征选择是文本挖掘的关键问题,本项目拟对特征选择的两种关键技术,即特征降维和特征权重估算进行建模。针对计算复杂度高、容易陷入局部极值等问题提出基于机器学习和概率模型的特征选择新方法,主要包括如下内容:考虑特征之间的关联性,构建基于互信息和信息熵的特征选择模型;采用封装式选择方式前向选择策略,构造基于最小二乘支持向量机的特征选择方法;构造基于图挖掘算法的特征选择新方法,通过构造两种消息并反复迭代传递,选出最具有代表性的特征,迭代设定阈值,选择重要性排名靠前的属性作为文本挖掘的特征;把特征所属类别看成是可见的观察值,把离散的特征权值看成隐藏的状态,设计特征权值估计的概率模型;基于实数域粗糙集理论、引入特征对分类的决策信息作为分类指导,客观评估特征对分类的贡献程度。项目的完成对于文本特征研究具有重要的理论意义,对于提高文本分类和聚类等文本挖掘问题的效率及其在多个领域中的应用具有重要的现实意义。
本项目主要以文本挖掘中的特征降维和特征权重估计方法作为研究对象,对上述两种关键技术进行建模,并提出了新的基于机器学习的特征选择方法,解决计算复杂度高、容易陷入局部极值、特征集合冗余度大等关键问题,并对它们进行比较分析。采用互信息和信息论中的信息熵理论建立了特征选择模型,该理论模型既考虑特征对类别的相关程度,也考虑特征之间的冗余,使得在获得尽可能少的特征过程中减少特征之间的冗余。采用了最小二乘支持向量机进行特征选择,解决特征选择问题中的计算复杂度高、不宜推广的难题,在进行特征选择时采用封装式选择方式前向选择策略,依次选择剩余特征中对分类效果影响最大的加入选出的特征子集。将图挖掘算法引入到文本特征选择过程中,将语法、语义、词性等信息的有效利用有助于提高文本分类以及聚类的性能。采用实数域粗糙集理论,不需离散化决策表,把特征对分类的决策信息引入到特征权重估计,使得到的特征权值能够更加客观地表示特征对分类的贡献最终提高分类效率。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于多色集合理论的医院异常工作流处理建模
信息熵-保真度联合度量函数的单幅图像去雾方法
高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析
基于直观图的三支概念获取及属性特征分析
融合网络特征的文本观点挖掘
面向Web主观性文本意见挖掘研究
面向特定领域文本的知识元及其关联挖掘方法研究
文本语言特征对众筹项目融资效果的影响:基于文本挖掘的方法