随着XML应用的日益广泛,XML文档的内容和文档之间的关系结构也日趋复杂。聚类和分类等数据挖掘技术不但可以增强网络中XML文档的组织性,从而为网络信息资源的搜集、整理及检索利用提供良好的技术支持,还可以在海量网络信息中发现XML文档间隐含的知识,确定XML文档内部标记的真实语义信息,为本体论和语义网的发展奠定坚实基础,因此具有重大研究意义。XML文档是一种结构化文本,其自动聚类和分类与一般的文本聚类分类有着较大差别,通过将XML文档和DTD转换为标记树并计算其相似度,可以找到一种实现XML文档自动聚类和分类的有效方法。在此过程中要解决的关键问题是文档元素结构信息的衡量及文档相似度的计算方法。本项目拟综合运用自动分词分类、数据挖掘、图论等多个领域的研究方法,提出一种计算XML文档元素层次权重和结构权重的算法以比较XML文档之间的相似度,从而提高XML文档自动聚类和分类的准确度和效率。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
基于FTA-BN模型的页岩气井口装置失效概率分析
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
面向大规模XML文档集的文本分类与聚类技术研究
基于受限树函数依赖和多值依赖的XML文档规范化问题
基于隐式反馈和伪反馈的XML文本文档检索技术研究
XML文档管理系统的关键技术的研究