基于标记树的XML文档自动聚类和分类研究

基本信息

批准号：70803046

项目类别：青年科学基金项目

资助金额：17.00

负责人：潘有能

学科分类：

依托单位：浙江大学

批准年份：2008

结题年份：2011

起止时间：2009-01-01 - 2011-12-31

项目状态：已结题

项目参与者：张蕊,丁楠,周英博,次仁拉珍

关键词：

XML数据挖掘标记树自动聚类自动分类

结项摘要

随着XML应用的日益广泛，XML文档的内容和文档之间的关系结构也日趋复杂。聚类和分类等数据挖掘技术不但可以增强网络中XML文档的组织性，从而为网络信息资源的搜集、整理及检索利用提供良好的技术支持，还可以在海量网络信息中发现XML文档间隐含的知识，确定XML文档内部标记的真实语义信息，为本体论和语义网的发展奠定坚实基础，因此具有重大研究意义。XML文档是一种结构化文本，其自动聚类和分类与一般的文本聚类分类有着较大差别，通过将XML文档和DTD转换为标记树并计算其相似度，可以找到一种实现XML文档自动聚类和分类的有效方法。在此过程中要解决的关键问题是文档元素结构信息的衡量及文档相似度的计算方法。本项目拟综合运用自动分词分类、数据挖掘、图论等多个领域的研究方法，提出一种计算XML文档元素层次权重和结构权重的算法以比较XML文档之间的相似度，从而提高XML文档自动聚类和分类的准确度和效率。

项目摘要

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：

发表时间：2021

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：

发表时间：2017

DOI：10.16031/j.cnki.issn.1003-8035.2019.05.04

发表时间：2019

潘有能的其他基金

批准号：71273225

批准年份：2012

资助金额：54.00

项目类别：面上项目

相似国自然基金

面向大规模XML文档集的文本分类与聚类技术研究

批准号：60875033

批准年份：2008

负责人：杨建武

学科分类：F0603

资助金额：24.00

项目类别：面上项目

基于受限树函数依赖和多值依赖的XML文档规范化问题

批准号：60563001

批准年份：2005

负责人：吕腾

学科分类：F0202

资助金额：6.00

项目类别：地区科学基金项目

基于隐式反馈和伪反馈的XML文本文档检索技术研究

批准号：60763001

批准年份：2007

负责人：万常选

学科分类：F0207

资助金额：21.00

项目类别：地区科学基金项目

XML文档管理系统的关键技术的研究

批准号：60003008

批准年份：2000

负责人：田增平

学科分类：F0202

资助金额：17.00

项目类别：青年科学基金项目

基于标记树的XML文档自动聚类和分类研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

基于铁路客流分配的旅客列车开行方案调整方法

智能煤矿建设路线与工程实践

基于SSR 的西南地区野生菰资源遗传多样性及遗传结构分析

“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型

潘有能的其他基金

基于关联数据的信息聚合模型与实现研究

相似国自然基金

基于标记树的XML文档自动聚类和分类研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

基于铁路客流分配的旅客列车开行方案调整方法

智能煤矿建设路线与工程实践

基于SSR 的西南地区野生菰资源 遗传多样性及遗传结构分析

“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型

潘有能的其他基金

基于关联数据的信息聚合模型与实现研究

相似国自然基金

基于SSR 的西南地区野生菰资源遗传多样性及遗传结构分析