文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术。文本自动分类的主要困难之一是特征空间的维数很高,为此特征选择是文本分类中的一个非常重要的步骤。在文本分类中,存在多个特征选择算法,而对这些特征选择算法的分析基本上是使用实验的手段,缺乏理论分析,本项目首先提出一种对特征选择算法进行形式化分析的方法,寻找特征选择算法需要满足的基本约束,在这组基本约束的基础上,构造高性能特征选择函数的通用方法;其次,由于已有的实验证明在不同的语料集(不同的数据分布)上,同一个特征选择方法表现出不同的性能,因此本项目提出鲁棒的特征选择方法是关于数据分布的一个函数,即,特征选择方法是由数据驱动的,从而提出数据驱动的特征选择方法。概括来说,本项目研究数据驱动的形式化特征选择方法。本项目的研究面对的是文本分类的核心问题,具有重要的研究价值,也具有广阔的应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于全模式全聚焦方法的裂纹超声成像定量检测
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
空气电晕放电发展过程的特征发射光谱分析与放电识别
基于图卷积网络的归纳式微博谣言检测新方法
数据驱动的机器学习软件系统的形式化需求建模工程方法
大数据驱动的空间选择行为机制研究
面向用户评论的复杂产品消费者偏好提取机制研究——基于数据驱动型特征选择的方法
高维数据特征选择的稳定性研究