文本自动分类中维数约简方法研究

基本信息

批准号：60663007

项目类别：地区科学基金项目

资助金额：25.00

负责人：王明文

学科分类：

依托单位：江西财经大学

批准年份：2006

结题年份：2009

起止时间：2007-01-01 - 2009-12-31

项目状态：已结题

项目参与者：袁里驰,何明,杨小平,徐慧植,曾庆鹏,罗远胜,陶红亮,余俊英,曹瑛

关键词：

投影寻踪偏最小二乘维数约简Markov网络文本分类

结项摘要

随着网上电子文档数量的指数级增长，文本分类技术在信息检索、信息过滤及内容管理等应用中变得日益重要。文档特征的选择和提取是文本分类的必要前提，特征维数的增加将使样本统计特性的估计变得更加困难，从而降低分类器的泛化能力，呈现"过学习"现象。要避免这种现象，用于分类器训练的训练样本个数必须随着特征维数的增长而呈指数增长，从而造成人们所说的"维数灾难"。因此在文本分类问题研究中，维数约简是一个必不可少的步骤，有效的维数约简可以提高学习任务的效率、改善分类性能。本课题旨在应用偏最小二乘、投影寻踪等统计理论研究新的维数约简方法，在统一框架下进行文档词信息和类别信息的建模，提取对分类贡献较大的那些语义特征，实现消除噪音且降低维数的目的，在此基础上，研究新的特征选择方法；应用随机过程的理论，研究基于Markov网络的特征选择方法;并在理论上证明和实验上验证新的维数约简方法的有效性。

项目摘要

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.7524 /j.issn.0254-6108.2017122903

发表时间：2018

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

王明文的其他基金

批准号：61272212

批准年份：2012

资助金额：70.00

项目类别：面上项目

批准号：61373009

批准年份：2013

资助金额：58.00

项目类别：面上项目

批准号：60963014

批准年份：2009

资助金额：22.00

项目类别：地区科学基金项目

批准号：61462045

批准年份：2014

资助金额：45.00

项目类别：地区科学基金项目

批准号：61876074

批准年份：2018

资助金额：62.00

项目类别：面上项目

相似国自然基金

非负矩阵分解中维数约简问题的研究

批准号：61373001

批准年份：2013

负责人：赵金熙

学科分类：F0201

资助金额：58.00

项目类别：面上项目

面向多媒体排序学习的维数约简

批准号：61271325

批准年份：2012

负责人：冀中

学科分类：F0116

资助金额：70.00

项目类别：面上项目

面向高维信息的非线性维数约简问题研究

批准号：61303091

批准年份：2013

负责人：高小方

学科分类：F0605

资助金额：22.00

项目类别：青年科学基金项目

实值多变量维数约简研究及应用

批准号：61273299

批准年份：2012

负责人：张军平

学科分类：F0603

资助金额：76.00

项目类别：面上项目

文本自动分类中维数约简方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

一种基于多层设计空间缩减策略的近似高维优化方法

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

二维FM系统的同时故障检测与控制

信息熵-保真度联合度量函数的单幅图像去雾方法

王明文的其他基金

文本自动分类中样本重要性模型及应用研究

可撤除生物特征签名关键技术研究

基于潜在语义对偶空间的跨语言信息检索理论和算法研究

基于潜在语义对偶空间的新词翻译自动识别方法研究

基于概率度量空间的词表示及词语相关性度量研究

相似国自然基金