随着网上电子文档数量的指数级增长,文本分类技术在信息检索、信息过滤及内容管理等应用中变得日益重要。文档特征的选择和提取是文本分类的必要前提,特征维数的增加将使样本统计特性的估计变得更加困难,从而降低分类器的泛化能力,呈现"过学习"现象。要避免这种现象,用于分类器训练的训练样本个数必须随着特征维数的增长而呈指数增长,从而造成人们所说的"维数灾难"。因此在文本分类问题研究中,维数约简是一个必不可少的步骤,有效的维数约简可以提高学习任务的效率、改善分类性能。本课题旨在应用偏最小二乘、投影寻踪等统计理论研究新的维数约简方法,在统一框架下进行文档词信息和类别信息的建模,提取对分类贡献较大的那些语义特征,实现消除噪音且降低维数的目的,在此基础上,研究新的特征选择方法;应用随机过程的理论,研究基于Markov网络的特征选择方法;并在理论上证明和实验上验证新的维数约简方法的有效性。
{{i.achievement_title}}
数据更新时间:2023-05-31
珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征
一种基于多层设计空间缩减策略的近似高维优化方法
基于文献计量学和社会网络分析的国内高血压病中医学术团队研究
二维FM系统的同时故障检测与控制
信息熵-保真度联合度量函数的单幅图像去雾方法
非负矩阵分解中维数约简问题的研究
面向多媒体排序学习的维数约简
面向高维信息的非线性维数约简问题研究
实值多变量维数约简研究及应用