In the era of Big Data, management decision-making data originates from many distributed and different sources in the shape of database, text and multimedia, which makes heterogeneous data integration a crucial task for data analysis. This research, which is based on a NSFC project chaired and completed by the same applicant (Chinese Domain Ontology Learning and Semi-automatic Building Methodology, Grant No. 71201032), seeks to develop frameworks, methods and algorithms for integrating organizational heterogeneous data through building and mapping different domain ontologies learnt from disparate data sources, so as to meet the objective of global querying and data mining with Big Data. The research mainly includes: (1) Mapping concepts of metadata of heterogeneous data from the perspective of conceptual connotation, which deals with syntactic and terminological heterogeneities. (b) Mapping instances of metadata of heterogeneous data from the perspective of conceptual extension on the basis of concept connotation mappings and concept instances. (c) Integrating multi-source heterogeneous data based on the set of ontology mappings towards management decision-making data mining and business analysis. A prototype system will be designed and a case study will be conducted to test the proposed frameworks, methods and algorithms.
大数据时代,组织管理决策过程所采用的数据通常来源广泛且异构,包括数据库、文本、多媒体等结构化和非结构化数据。如何融合异构数据是大数据分析的关键问题之一。本项目,采用申请人主持完成的国家自然科学基金青年项目(中文领域本体学习及半自动构建方法研究,No.71201032)所研发的本体学习方法与软件工具,将异构数据分别结构化为不同的领域本体,基于本体映射研究多源异构数据融合方法,以支持组织管理决策数据的统一检索与全局视图分析。主要研究内容:(1)从概念内涵的角度研究异构数据元数据的概念映射方法,发现多数据源本体概念之间的表示层和术语层映射;(2)从概念外延的角度研究异构数据元数据的实例映射方法,利用概念映射集合及概念实例集合发现本体映射;(3)基于本体映射集合,研究面向组织管理决策数据分析的多源异构数据融合方法。此外,开发一个原型系统并以若干组织的数据为实例验证上述方法。
随着“一带一路”倡议的建设和全球化进程的加快,各领域各组织的国际化程度迅速提高,组织管理决策数据日益来源广泛且异构,多源异构数据融合成为支持组织管理决策全球化和全局化视野的关键基础。本项目,基于本体与知识图谱、统计分析及深度学习方法,深入研究了多源异构数据的融合方法,以支持组织管理决策大数据的全局视图分析。.本项目主要研究内容:.(1)研究了异构数据元数据概念映射方法。结合自然语言处理和统计分析等方法,本项目从概念内涵的角度研究了多源异构管理决策数据的元数据概念及不同概念间的语义关系。提出了多语言文本预处理方法、多语言词语提取与术语提取方法、跨语言术语对齐方法、人物关系检测方法等一系列元数据概念发现与概念间映射关系发现的方法。这些方法能够以令人满意的效果获取异构数据的元数据概念及其映射。.(2)研究了异构数据元数据实例映射方法。采用语境分析、统计分析和深度学习等理论与方法,本项目从概念外延的角度研究了具体异构数据之间的相关关系。提出了跨语言文本聚/分类、跨语言文本相似度计算及文档对齐、图像目标检测等方法。这些方法达到90%以上的准确率。其中,基于句向量组距离的跨语言文档对齐方法在多种不同语言不同对齐质量的文档数据集上都达到99%以上的文档对齐准确率。.(3)研究了基于本体映射的异构数据融合方法。基于(1)和(2)研发的异构数据预处理、元数据概念发现与映射、元数据实例映射等方法,本项目研究了具体的异构数据融合方法。重点研究了多源异构的社交媒体数据和图像数据等的融合方法。研发了相应的多语言词语提取软件工具Melt(Multi-Language Terms Extraction),支持汉语、英语、俄语、德语、法语、阿拉伯语和西班牙语的文本词语提取。Melt所得的词语集合足以胜任异构文本数据挖掘的基础词库。.本项目,面对组织管理决策大数据,通过集成数据的元数据概念,研究多源异构数据的关联和整合方法,支持大数据处理和分析的统一视图。本项目研究对于异构数据的元数据本体构建与集成、多源异构数据处理和分析研究具有理论意义。并且,本项目研究成果对于多模态信息检索、多语言舆情热点监测、跨语言文本复制检测及图像目标检测等任务具有实际应用前景。能够辅助支持跨国组织及时准确地获取瞬息万变的国际情况,有效地制定基于全球视野的管理决策。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
黄河流域水资源利用时空演变特征及驱动要素
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向云工作流安全的任务调度方法
基于语义数据的迭代本体学习方法研究
异构环境下基于社交数据的大规模本体学习模型研究
异构本体间的半自动化映射与校验方法研究
基于多源数据融合的基因本体扩展方法研究