基于PAM概率主题模型的本体概念及层次结构学习研究

基本信息
批准号:61105047
项目类别:青年科学基金项目
资助金额:24.00
负责人:王俊丽
学科分类:
依托单位:同济大学
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:卫刚,张波,周杰,张伟,牛博,潘成贤,路燕梅,于敬
关键词:
概念提取OLPAM模型概念间层次结构获取概率主题模型本体学习
结项摘要

作为一种能在语义和知识层次上描述概念模型的建模工具,本体是语义Web中语义描述的核心和关键。针对本体学习中存在的两大关键问题:本体概念的提取和概念间层次结构的获取,本项目在深入研究PAM (Pachinko Allocation Model)概率主题模型的构建、计算和测试等理论和方法基础上,开展基于PAM的本体概念及层次结构学习模型(OL-PAM)建模理论研究,包括OL-PAM模型的潜在主题空间生成机制、基于Gibbs Sampling的OL-PAM模型的参数估计方法、OL-PAM模型的推理算法和统计特征相似度度量方法等理论和关键技术研究,同时,基于OL-PAM模型提出并设计概念迭代生成算法和概念间层次关系获取方法,进而通过模拟实验对生成的本体概念及层次结构的性能进行评价与分析,以期拓展本体学习理论,为实现领域本体自动构建提供理论依据和支撑技术。

项目摘要

本项目依据项目计划任务书,着重针对本体学习过程中的概念层次结构学习和属性学习两个关键问题,在研究术语之间的潜在语义基础上,开展了适用于本体学习的PAM(Pachinko Allocation Model)概率模型建立、Gibbs抽样方法参数估计、基于Web的本体概念属性提取方法和基于时序信息的主题跟踪与演化分析等理论和关键技术研究。研究工作中取得的重要进展包括:.1)针对术语之间的潜在语义,开展了概率模型潜在主题空间生成机制、建立PAM模型、Gibbs抽样参数估计,并对建立的模型进行了训练和评价,实验使用GENIA语料库,由2000篇MEDLINE摘要组成,具有168384个生物学术语,实验结果表明,该模型能够很好地学习得到主题以及主题间相关性。.2)概率主题模型是结合概率论和图论的图模型表示方法,依据概率模型的文档生成过程及其逆过程,可以统计推断得到主题信息。探讨了PAM模型的框架、PAM四层模型结构以及PAM的改进模型,包括HPAM和NPB PAM,并对它们的性能进行了分析对比,探讨了PAM模型的发展趋势。.3)在项目研究过程中,提出了基于PAM的本体概念及层次学习模型,将概念层次学习问题描述并转化为几个子问题,即给定关于某专业领域的一组文档集合,通过预处理技术获取领域术语集;计算文档集关于术语集的词频矩阵;统计推断出术语及其关联概率特征项;并在此基础上,通过语义相似度计算来获取抽象描述文档集的一组概念的集合。通过在来源于Twitter的微博信息概念挖掘,取得了很好的效果。.4)针对本体概念属性提取问题,提出了基于Web的本体概念属性提取模型,并设计了一种基于语言模式、Web语料库和LDA的混合本体概念属性学习算法,根据已建立的文本集,利用LDA模型提取的属性词,对候选概念属性库进行修剪和合并,生成最终的概念属性集合。通过模拟实验,根据准确率、召回率和F值等指标对算法的性能进行评估分析。.5)结合新闻报道在时序上表现出的分布信息,将主题模型应用到新闻事件的主题跟踪和演化分析。利用K-Means聚类算法将语料库按时间划分成子语料库;然利用主题模型依次对每个子语料库建模并得到其主题分布信息;最后通过计算相邻子语料库中两两主题之间的Jensen-Shannon距离,获取该事件的主主题和辅助主题,刻画新闻预料中事件发展的主线以及在各个阶段爆发出来的新的关注点。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

相似国自然基金

1

基于概率主题模型的词义计算及应用研究

批准号:61373056
批准年份:2013
负责人:金澎
学科分类:F0211
资助金额:73.00
项目类别:面上项目
2

基于hLDA层次主题模型的中文多文档摘要研究

批准号:61202247
批准年份:2012
负责人:李蕾
学科分类:F0211
资助金额:22.00
项目类别:青年科学基金项目
3

基于深度学习的富媒体本体学习模型研究

批准号:61773229
批准年份:2017
负责人:郑海涛
学科分类:F0607
资助金额:63.00
项目类别:面上项目
4

大规模概率主题模型的高性能求解

批准号:61003117
批准年份:2010
负责人:李文波
学科分类:F0211
资助金额:19.00
项目类别:青年科学基金项目