基于本体学习与本体映射的组织异构数据融合方法研究

基本信息
批准号:71771054
项目类别:面上项目
资助金额:46.00
负责人:于娟
学科分类:
依托单位:福州大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:汪婧,骈文景,廖劲为,施文洁,王建文,黄恒琪
关键词:
异构数据知识管理本体本体映射本体学习
结项摘要

In the era of Big Data, management decision-making data originates from many distributed and different sources in the shape of database, text and multimedia, which makes heterogeneous data integration a crucial task for data analysis. This research, which is based on a NSFC project chaired and completed by the same applicant (Chinese Domain Ontology Learning and Semi-automatic Building Methodology, Grant No. 71201032), seeks to develop frameworks, methods and algorithms for integrating organizational heterogeneous data through building and mapping different domain ontologies learnt from disparate data sources, so as to meet the objective of global querying and data mining with Big Data. The research mainly includes: (1) Mapping concepts of metadata of heterogeneous data from the perspective of conceptual connotation, which deals with syntactic and terminological heterogeneities. (b) Mapping instances of metadata of heterogeneous data from the perspective of conceptual extension on the basis of concept connotation mappings and concept instances. (c) Integrating multi-source heterogeneous data based on the set of ontology mappings towards management decision-making data mining and business analysis. A prototype system will be designed and a case study will be conducted to test the proposed frameworks, methods and algorithms.

大数据时代,组织管理决策过程所采用的数据通常来源广泛且异构,包括数据库、文本、多媒体等结构化和非结构化数据。如何融合异构数据是大数据分析的关键问题之一。本项目,采用申请人主持完成的国家自然科学基金青年项目(中文领域本体学习及半自动构建方法研究,No.71201032)所研发的本体学习方法与软件工具,将异构数据分别结构化为不同的领域本体,基于本体映射研究多源异构数据融合方法,以支持组织管理决策数据的统一检索与全局视图分析。主要研究内容:(1)从概念内涵的角度研究异构数据元数据的概念映射方法,发现多数据源本体概念之间的表示层和术语层映射;(2)从概念外延的角度研究异构数据元数据的实例映射方法,利用概念映射集合及概念实例集合发现本体映射;(3)基于本体映射集合,研究面向组织管理决策数据分析的多源异构数据融合方法。此外,开发一个原型系统并以若干组织的数据为实例验证上述方法。

项目摘要

随着“一带一路”倡议的建设和全球化进程的加快,各领域各组织的国际化程度迅速提高,组织管理决策数据日益来源广泛且异构,多源异构数据融合成为支持组织管理决策全球化和全局化视野的关键基础。本项目,基于本体与知识图谱、统计分析及深度学习方法,深入研究了多源异构数据的融合方法,以支持组织管理决策大数据的全局视图分析。.本项目主要研究内容:.(1)研究了异构数据元数据概念映射方法。结合自然语言处理和统计分析等方法,本项目从概念内涵的角度研究了多源异构管理决策数据的元数据概念及不同概念间的语义关系。提出了多语言文本预处理方法、多语言词语提取与术语提取方法、跨语言术语对齐方法、人物关系检测方法等一系列元数据概念发现与概念间映射关系发现的方法。这些方法能够以令人满意的效果获取异构数据的元数据概念及其映射。.(2)研究了异构数据元数据实例映射方法。采用语境分析、统计分析和深度学习等理论与方法,本项目从概念外延的角度研究了具体异构数据之间的相关关系。提出了跨语言文本聚/分类、跨语言文本相似度计算及文档对齐、图像目标检测等方法。这些方法达到90%以上的准确率。其中,基于句向量组距离的跨语言文档对齐方法在多种不同语言不同对齐质量的文档数据集上都达到99%以上的文档对齐准确率。.(3)研究了基于本体映射的异构数据融合方法。基于(1)和(2)研发的异构数据预处理、元数据概念发现与映射、元数据实例映射等方法,本项目研究了具体的异构数据融合方法。重点研究了多源异构的社交媒体数据和图像数据等的融合方法。研发了相应的多语言词语提取软件工具Melt(Multi-Language Terms Extraction),支持汉语、英语、俄语、德语、法语、阿拉伯语和西班牙语的文本词语提取。Melt所得的词语集合足以胜任异构文本数据挖掘的基础词库。.本项目,面对组织管理决策大数据,通过集成数据的元数据概念,研究多源异构数据的关联和整合方法,支持大数据处理和分析的统一视图。本项目研究对于异构数据的元数据本体构建与集成、多源异构数据处理和分析研究具有理论意义。并且,本项目研究成果对于多模态信息检索、多语言舆情热点监测、跨语言文本复制检测及图像目标检测等任务具有实际应用前景。能够辅助支持跨国组织及时准确地获取瞬息万变的国际情况,有效地制定基于全球视野的管理决策。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018

于娟的其他基金

批准号:31701107
批准年份:2017
资助金额:26.00
项目类别:青年科学基金项目
批准号:61702148
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:81802992
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:11402223
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:81603429
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:41876122
批准年份:2018
资助金额:62.00
项目类别:面上项目
批准号:71201032
批准年份:2012
资助金额:19.00
项目类别:青年科学基金项目
批准号:40506028
批准年份:2005
资助金额:25.00
项目类别:青年科学基金项目
批准号:61866036
批准年份:2018
资助金额:38.00
项目类别:地区科学基金项目
批准号:51076089
批准年份:2010
资助金额:38.00
项目类别:面上项目

相似国自然基金

1

基于语义数据的迭代本体学习方法研究

批准号:61602259
批准年份:2016
负责人:季秋
学科分类:F06
资助金额:21.00
项目类别:青年科学基金项目
2

异构环境下基于社交数据的大规模本体学习模型研究

批准号:61375054
批准年份:2013
负责人:郑海涛
学科分类:F0607
资助金额:79.00
项目类别:面上项目
3

异构本体间的半自动化映射与校验方法研究

批准号:60374071
批准年份:2003
负责人:王英林
学科分类:F0601
资助金额:22.00
项目类别:面上项目
4

基于多源数据融合的基因本体扩展方法研究

批准号:61702421
批准年份:2017
负责人:彭佳杰
学科分类:F0213
资助金额:26.00
项目类别:青年科学基金项目