文本自动分类中维数约简方法研究

基本信息
批准号:60663007
项目类别:地区科学基金项目
资助金额:25.00
负责人:王明文
学科分类:
依托单位:江西财经大学
批准年份:2006
结题年份:2009
起止时间:2007-01-01 - 2009-12-31
项目状态: 已结题
项目参与者:袁里驰,何明,杨小平,徐慧植,曾庆鹏,罗远胜,陶红亮,余俊英,曹瑛
关键词:
投影寻踪偏最小二乘维数约简Markov网络文本分类
结项摘要

随着网上电子文档数量的指数级增长,文本分类技术在信息检索、信息过滤及内容管理等应用中变得日益重要。文档特征的选择和提取是文本分类的必要前提,特征维数的增加将使样本统计特性的估计变得更加困难,从而降低分类器的泛化能力,呈现"过学习"现象。要避免这种现象,用于分类器训练的训练样本个数必须随着特征维数的增长而呈指数增长,从而造成人们所说的"维数灾难"。因此在文本分类问题研究中,维数约简是一个必不可少的步骤,有效的维数约简可以提高学习任务的效率、改善分类性能。本课题旨在应用偏最小二乘、投影寻踪等统计理论研究新的维数约简方法,在统一框架下进行文档词信息和类别信息的建模,提取对分类贡献较大的那些语义特征,实现消除噪音且降低维数的目的,在此基础上,研究新的特征选择方法;应用随机过程的理论,研究基于Markov网络的特征选择方法;并在理论上证明和实验上验证新的维数约简方法的有效性。

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

DOI:10.7524 /j.issn.0254-6108.2017122903
发表时间:2018
2

一种基于多层设计空间缩减策略的近似高维优化方法

一种基于多层设计空间缩减策略的近似高维优化方法

DOI:10.1051/jnwpu/20213920292
发表时间:2021
3

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

DOI:10.11842/wst.20190724002
发表时间:2020
4

二维FM系统的同时故障检测与控制

二维FM系统的同时故障检测与控制

DOI:10.16383/j.aas.c180673
发表时间:2021
5

信息熵-保真度联合度量函数的单幅图像去雾方法

信息熵-保真度联合度量函数的单幅图像去雾方法

DOI:10.3724/SP.J.1089.2019.17435
发表时间:2019

王明文的其他基金

批准号:61272212
批准年份:2012
资助金额:70.00
项目类别:面上项目
批准号:61373009
批准年份:2013
资助金额:58.00
项目类别:面上项目
批准号:60963014
批准年份:2009
资助金额:22.00
项目类别:地区科学基金项目
批准号:61462045
批准年份:2014
资助金额:45.00
项目类别:地区科学基金项目
批准号:61876074
批准年份:2018
资助金额:62.00
项目类别:面上项目

相似国自然基金

1

非负矩阵分解中维数约简问题的研究

批准号:61373001
批准年份:2013
负责人:赵金熙
学科分类:F0201
资助金额:58.00
项目类别:面上项目
2

面向多媒体排序学习的维数约简

批准号:61271325
批准年份:2012
负责人:冀中
学科分类:F0116
资助金额:70.00
项目类别:面上项目
3

面向高维信息的非线性维数约简问题研究

批准号:61303091
批准年份:2013
负责人:高小方
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目
4

实值多变量维数约简研究及应用

批准号:61273299
批准年份:2012
负责人:张军平
学科分类:F0603
资助金额:76.00
项目类别:面上项目