随着XML标准被普遍采用,XML文档数量迅速增长,面向XML文档集的自动分类聚类等分析挖掘技术的研究逐渐受到关注。结构链接向量模型(SLVM)是我们提出的一种综合考虑结构信息与内容信息的XML文档模型,其在小规模XML文档集上具有良好的效果。然而,对于大规模的XML文档集,其结构复杂、内容丰富,随之而来的特征选择、降低算法时空复杂度等问题都值得深入研究。本项目以SLVM模型为基础,研究面向大规模XML文档集的自动分类和自动聚类的方法。拟重点解决面向大规模XML文档集分类聚类的特征选择与特征描述问题、特征归约与降维问题、增量式分类聚类算法问题以及动态数据环境下的算法自适应性问题。提出了用于结构特征选择的"频繁局部路径"的概念和多角度的特征归约与降维方法。本项目研究对XML文档集的分析利用具有重要理论意义和直接应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
基于标记树的XML文档自动聚类和分类研究
面向大规模XML文档集的关键词检索系统关键技术研究
面向大规模动态短文本的快速聚类及演化分析技术研究
基于隐式反馈和伪反馈的XML文本文档检索技术研究