基于标记树的XML文档自动聚类和分类研究

基本信息
批准号:70803046
项目类别:青年科学基金项目
资助金额:17.00
负责人:潘有能
学科分类:
依托单位:浙江大学
批准年份:2008
结题年份:2011
起止时间:2009-01-01 - 2011-12-31
项目状态: 已结题
项目参与者:张蕊,丁楠,周英博,次仁拉珍
关键词:
XML数据挖掘标记树自动聚类自动分类
结项摘要

随着XML应用的日益广泛,XML文档的内容和文档之间的关系结构也日趋复杂。聚类和分类等数据挖掘技术不但可以增强网络中XML文档的组织性,从而为网络信息资源的搜集、整理及检索利用提供良好的技术支持,还可以在海量网络信息中发现XML文档间隐含的知识,确定XML文档内部标记的真实语义信息,为本体论和语义网的发展奠定坚实基础,因此具有重大研究意义。XML文档是一种结构化文本,其自动聚类和分类与一般的文本聚类分类有着较大差别,通过将XML文档和DTD转换为标记树并计算其相似度,可以找到一种实现XML文档自动聚类和分类的有效方法。在此过程中要解决的关键问题是文档元素结构信息的衡量及文档相似度的计算方法。本项目拟综合运用自动分词分类、数据挖掘、图论等多个领域的研究方法,提出一种计算XML文档元素层次权重和结构权重的算法以比较XML文档之间的相似度,从而提高XML文档自动聚类和分类的准确度和效率。

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

DOI:10.3724/ SP.J.1123.2019.04013
发表时间:2019
3

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

潘有能的其他基金

批准号:71273225
批准年份:2012
资助金额:54.00
项目类别:面上项目

相似国自然基金

1

面向大规模XML文档集的文本分类与聚类技术研究

批准号:60875033
批准年份:2008
负责人:杨建武
学科分类:F0603
资助金额:24.00
项目类别:面上项目
2

基于受限树函数依赖和多值依赖的XML文档规范化问题

批准号:60563001
批准年份:2005
负责人:吕腾
学科分类:F0202
资助金额:6.00
项目类别:地区科学基金项目
3

基于隐式反馈和伪反馈的XML文本文档检索技术研究

批准号:60763001
批准年份:2007
负责人:万常选
学科分类:F0207
资助金额:21.00
项目类别:地区科学基金项目
4

XML文档管理系统的关键技术的研究

批准号:60003008
批准年份:2000
负责人:田增平
学科分类:F0202
资助金额:17.00
项目类别:青年科学基金项目