基于半监督学习和集成学习的文本分类方法研究

基本信息
批准号:61073133
项目类别:面上项目
资助金额:32.00
负责人:鲁明羽
学科分类:
依托单位:大连海事大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:蒋剑平,赵子祥,唐焕玲,刘智,那春光,赵秀华,刘娜,肖智博,谢静芝
关键词:
半监督学习分类系统集成学习文本分类文本特征
结项摘要

针对文本分类技术存在的突出问题,本项目拟在项目组大量前期研究工作基础上,进一步深化和拓展半监督分类和集成分类的研究,主要包括:利用主题词表等信息和多种评估函数,并结合运用遗传算法和随机判定树方法,提取文本特征并进行权值调整;基于特征依赖模型并结合特征多视图与差异性评估,改进Co-training、TSVM等半监督分类算法;尝试提出创新性的多基分类器间的差异性评估的方法,通过利用特征多视图和基于投票熵的权重维护新策略,建立新的Boosting分类模型;结合半监督学习与集成学习,提出改进的Semi-Boosting 分类模型,以提高集成分类器的泛化能力;研究海量数据下半监督学习的样本分布和执行效率问题及图结构构建算法。本项目还将面向航运领域大规模专业文献,研制开发实用分类系统。该项研究工作对于促进文本分类技术发展特别是其实用化具有重要意义,所获得研究成果对其它类型的分类问题有较大参考价值。

项目摘要

自动分类技术可广泛应用于图书、情报、新闻媒体、互联网等领域,是人类处理浩如烟海的海量文本信息的重要手段,其研究工作一直是文本挖掘、信息检索和数据挖掘领域的热点。但是对于数据量较大、标注不完整、更为复杂特别是大规模应用问题,现有的文本分类技术性能和效果(精度、速度、人工辅助工作量、应用范围和程度等)还不能令人满意,与现实需求的距离还很大。.  半监督学习具有可充分利用未标注样本的优势,集成学习可以克服单个分类器分类精度的不足, 有效提高学习系统的泛化能力。本项目研究了集成学习中多样性、随机性和准确性的关系,通过大量的实验表明增加多样性可以提高集成学习学习器的准确性,但是过多地引入随机性虽然增加了多样性但是会降低准确性。在上述结论的基础上,提出了基于置信度取样的SemiBoost-CR算法,利用未标记样本使用半监督学习的方法提高集成学习基分类器差异性,提高了分类准确率,也解决了分类算法不稳定性问题。进一步,本项目融合迁移学习与协同训练,辅助半监督学习训练,提高未标记样本与其近邻标注样本的分类一致性,也进一步提高了分类准确率。.在集成学习的研究中,基学习器的选取是非常重要的,本项目研究了基于频繁项集的双层贝叶斯分类器和面向多值多分类的决策树算法,从基分类器角度扩大学习器的适用范围。.  在半监督聚类的研究中,本项目在分析单词-文档谱聚类方法的基本步骤、找出其对初始值敏感的根本原因的基础上,提出一种基于模糊-调和均值的单词-文档谱聚类方法和基于形态学的单词-文档谱聚类方法。.  除了上述集成学习与半监督学习内容之外,本项目还研究了机器学习中的特征抽取技术以及计算方法研究。在特征抽取方面,提出了基于SVR的复数方向金字塔域的彩色图像水印算法和基于四元数离散余弦变换算法的鲁棒彩色图像水印,可以较好地达到高鲁棒性和良好的视觉质量。在机器学习计算方法方面,提出了基于MCMC后验概率的抽样方法和基于汉密尔顿-MCMC的参数估计方法,在视觉跟踪领域取得了良好的效果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
3

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
4

卫生系统韧性研究概况及其展望

卫生系统韧性研究概况及其展望

DOI:10.16506/j.1009-6639.2018.11.016
发表时间:2018
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

鲁明羽的其他基金

批准号:61272369
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:60773084
批准年份:2007
资助金额:31.00
项目类别:面上项目
批准号:60473115
批准年份:2004
资助金额:21.00
项目类别:面上项目

相似国自然基金

1

面向文本分类的迁移学习和半监督学习方法研究

批准号:61175053
批准年份:2011
负责人:唐焕玲
学科分类:F0603
资助金额:57.00
项目类别:面上项目
2

基于弱监督和迁移学习的深度文本理解模型学习方法

批准号:61876144
批准年份:2018
负责人:管子玉
学科分类:F0606
资助金额:62.00
项目类别:面上项目
3

半监督文本情感分类方法研究

批准号:61003155
批准年份:2010
负责人:李寿山
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
4

基于主动半监督学习的遥感影像分类

批准号:61072094
批准年份:2010
负责人:王雪松
学科分类:F0113
资助金额:34.00
项目类别:面上项目