基于隐语义分析的多源数据融合技术研究

基本信息

批准号：61602297

项目类别：青年科学基金项目

资助金额：21.00

负责人：沈艳艳

学科分类：

依托单位：上海交通大学

批准年份：2016

结题年份：2019

起止时间：2017-01-01 - 2019-12-31

项目状态：已结题

项目参与者：钱诗友,张媛媛,龚小龙,贾力,王福伟,褚幸,文宇

关键词：

数据语义数据融合数据质量

结项摘要

The emergence of large-scale data has propelled the revolution of data-driven techniques which could result in huge profit potential. The development of these techniques has increased the demand for the provision of high-quality data. Large-scale data are typically collected from multiple sources, with high volume and heterogeneous quality; the acquisition of high-quality data requires us to fuse data from different sources and distinguish true from false tuples. Traditional data fusion approaches are based on the trustworthiness analysis of data sources without exploring the inherent law of data and hence have limited effectiveness on data fusion problems. In this proposal, we plan to explore a novel solution to data fusion problems based on latent semantic analysis. We aim to abstract the characteristics of the data to be fused, build latent semantic analysis model which can be used to explain the rationality and the generation mode of data and helps to find the truth from conflicting tuples. We will provide algorithms to learn the parameters of the model and based on the trained model, we will estimate the probability of each tuple being correct. Furthermore, we plan to build a unified system which combines our solution with the traditional data fusion approaches in order to improve the accuracy of data fusion results, provide a more effective method for data quality management, and lay a solid foundation for various large-scale data analytics applications.

海量数据推动了各种基于数据驱动的技术革新，并且形成巨大的潜在经济效益。各类应用技术的开展，对数据质量提出较高要求。海量数据通常具有规模大、来源多、质量良莠不齐的特点，往往需要利用多个数据源的信息加以融合，去伪存真。传统数据融合技术多基于针对数据源可信度的分析，对数据的自身规律并没有加以挖掘，因而效果具有局限性。为此，本课题将探索一套基于数据隐语义分析的多源数据融合方法，拟对海量结构化待融合数据的特点加以抽象，建立适当的隐语义模型，该模型用于解释各数据条目的合理性与潜在生成方式，可帮助从冲突数据条目中发现真值。课题将设计算法确定模型参数，即进行模型求解，依据解得的模型对各数据条目的候选值正确概率加以估计，并将基于隐语义分析的模型与传统的基于数据源分析的模型相结合，构建统一框架，进而提高数据融合结果的准确率，形成更有效的数据质量控制机制，为各类海量数据分析应用的开展奠定基础。

项目摘要

海量数据推动了各种基于数据驱动的技术革新，并且形成巨大的潜在经济效益。海量数据通常具有规模大、来源多、质量良莠不齐的特点，往往需要利用多个数据源的数据，深入挖掘数据的自身规律，挖掘隐含语义信息，并以信息融合的方式，形成多源数据的有效表征。传统数据融合技术多采用生成模型，以无监督的方法对数据隐含语义进行特征抽取，效果具有局限性。为此，本课题研究数据隐语义分析模型的适用性；研究多源数据下隐语义分析模型的建立与求解；研究语义分析模型下的数据融合方法；研究基于语义分析的数据融合方法与现有数据融合技术的结合与优化；研究数据融合平台与应用。所提出的基于数据隐语义分析的多源数据融合方法，对海量待融合数据的特点进行深度挖掘和抽象，为各类应用的展开提供支撑。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.12005/orms.2019.0029

发表时间：2019

DOI：10.11707/j.1001-7488.20210410

发表时间：2021

DOI：

发表时间：2017

沈艳艳的其他基金

相似国自然基金

基于多源知识融合的事实型隐式情感分析研究

批准号：61906112

批准年份：2019

负责人：廖健

学科分类：F0606

资助金额：24.00

项目类别：青年科学基金项目

基于深度学习的多源异构质检大数据融合与分析技术研究

批准号：91646122

批准年份：2016

负责人：许应成

学科分类：G0110

资助金额：43.00

项目类别：重大研究计划

多源知识图谱下大规模语义数据的融合及检索方法

批准号：61802352

批准年份：2018

负责人：李璞

学科分类：F0201

资助金额：26.00

项目类别：青年科学基金项目

基于生态大数据的信息物理融合系统语义模型分析关键技术研究

批准号：61862055

批准年份：2018

负责人：耿生玲

学科分类：F0201

资助金额：39.00

项目类别：地区科学基金项目

基于隐语义分析的多源数据融合技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于国产化替代环境下高校计算机教学的研究

智能煤矿建设路线与工程实践

基于直觉模糊二元语义交互式群决策的技术创新项目选择

基于PROSAIL模型和多角度遥感数据的森林叶面积指数反演

区块链技术:从数据智能到知识自动化

沈艳艳的其他基金

相似国自然基金