面向大规模XML文档集的文本分类与聚类技术研究

基本信息
批准号:60875033
项目类别:面上项目
资助金额:24.00
负责人:杨建武
学科分类:
依托单位:北京大学
批准年份:2008
结题年份:2011
起止时间:2009-01-01 - 2011-12-31
项目状态: 已结题
项目参与者:万小军,黄小江,彭学政,王栋,张阜东,骆雄武,王晨峰,张国威
关键词:
结构分析文本挖掘XML文档文本聚类文本分类
结项摘要

随着XML标准被普遍采用,XML文档数量迅速增长,面向XML文档集的自动分类聚类等分析挖掘技术的研究逐渐受到关注。结构链接向量模型(SLVM)是我们提出的一种综合考虑结构信息与内容信息的XML文档模型,其在小规模XML文档集上具有良好的效果。然而,对于大规模的XML文档集,其结构复杂、内容丰富,随之而来的特征选择、降低算法时空复杂度等问题都值得深入研究。本项目以SLVM模型为基础,研究面向大规模XML文档集的自动分类和自动聚类的方法。拟重点解决面向大规模XML文档集分类聚类的特征选择与特征描述问题、特征归约与降维问题、增量式分类聚类算法问题以及动态数据环境下的算法自适应性问题。提出了用于结构特征选择的"频繁局部路径"的概念和多角度的特征归约与降维方法。本项目研究对XML文档集的分析利用具有重要理论意义和直接应用价值。

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

杨建武的其他基金

批准号:60642001
批准年份:2006
资助金额:7.00
项目类别:专项基金项目
批准号:61370116
批准年份:2013
资助金额:73.00
项目类别:面上项目

相似国自然基金

1

基于标记树的XML文档自动聚类和分类研究

批准号:70803046
批准年份:2008
负责人:潘有能
学科分类:G0414
资助金额:17.00
项目类别:青年科学基金项目
2

面向大规模XML文档集的关键词检索系统关键技术研究

批准号:61170091
批准年份:2011
负责人:邓志鸿
学科分类:F0211
资助金额:57.00
项目类别:面上项目
3

面向大规模动态短文本的快速聚类及演化分析技术研究

批准号:61300114
批准年份:2013
负责人:刘铭
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目
4

基于隐式反馈和伪反馈的XML文本文档检索技术研究

批准号:60763001
批准年份:2007
负责人:万常选
学科分类:F0207
资助金额:21.00
项目类别:地区科学基金项目