随着网上电子文档数量的指数级增长,文本分类技术在信息检索、信息过滤及内容管理等应用中变得日益重要。文档特征的选择和提取是文本分类的必要前提,特征维数的增加将使样本统计特性的估计变得更加困难,从而降低分类器的泛化能力,呈现"过学习"现象。要避免这种现象,用于分类器训练的训练样本个数必须随着特征维数的增长而呈指数增长,从而造成人们所说的"维数灾难"。因此在文本分类问题研究中,维数约简是一个必不可少的步骤,有效的维数约简可以提高学习任务的效率、改善分类性能。本课题旨在应用偏最小二乘、投影寻踪等统计理论研究新的维数约简方法,在统一框架下进行文档词信息和类别信息的建模,提取对分类贡献较大的那些语义特征,实现消除噪音且降低维数的目的,在此基础上,研究新的特征选择方法;应用随机过程的理论,研究基于Markov网络的特征选择方法;并在理论上证明和实验上验证新的维数约简方法的有效性。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响
跨社交网络用户对齐技术综述
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
城市轨道交通车站火灾情况下客流疏散能力评价
非负矩阵分解中维数约简问题的研究
面向多媒体排序学习的维数约简
面向高维信息的非线性维数约简问题研究
实值多变量维数约简研究及应用