随着XML应用的日益广泛,XML文档的内容和文档之间的关系结构也日趋复杂。聚类和分类等数据挖掘技术不但可以增强网络中XML文档的组织性,从而为网络信息资源的搜集、整理及检索利用提供良好的技术支持,还可以在海量网络信息中发现XML文档间隐含的知识,确定XML文档内部标记的真实语义信息,为本体论和语义网的发展奠定坚实基础,因此具有重大研究意义。XML文档是一种结构化文本,其自动聚类和分类与一般的文本聚类分类有着较大差别,通过将XML文档和DTD转换为标记树并计算其相似度,可以找到一种实现XML文档自动聚类和分类的有效方法。在此过程中要解决的关键问题是文档元素结构信息的衡量及文档相似度的计算方法。本项目拟综合运用自动分词分类、数据挖掘、图论等多个领域的研究方法,提出一种计算XML文档元素层次权重和结构权重的算法以比较XML文档之间的相似度,从而提高XML文档自动聚类和分类的准确度和效率。
{{i.achievement_title}}
数据更新时间:2023-05-31
EBPR工艺运行效果的主要影响因素及研究现状
基于铁路客流分配的旅客列车开行方案调整方法
智能煤矿建设路线与工程实践
基于SSR 的西南地区野生菰资源 遗传多样性及遗传结构分析
“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型
面向大规模XML文档集的文本分类与聚类技术研究
基于受限树函数依赖和多值依赖的XML文档规范化问题
基于隐式反馈和伪反馈的XML文本文档检索技术研究
XML文档管理系统的关键技术的研究