The emergence of large-scale data has propelled the revolution of data-driven techniques which could result in huge profit potential. The development of these techniques has increased the demand for the provision of high-quality data. Large-scale data are typically collected from multiple sources, with high volume and heterogeneous quality; the acquisition of high-quality data requires us to fuse data from different sources and distinguish true from false tuples. Traditional data fusion approaches are based on the trustworthiness analysis of data sources without exploring the inherent law of data and hence have limited effectiveness on data fusion problems. In this proposal, we plan to explore a novel solution to data fusion problems based on latent semantic analysis. We aim to abstract the characteristics of the data to be fused, build latent semantic analysis model which can be used to explain the rationality and the generation mode of data and helps to find the truth from conflicting tuples. We will provide algorithms to learn the parameters of the model and based on the trained model, we will estimate the probability of each tuple being correct. Furthermore, we plan to build a unified system which combines our solution with the traditional data fusion approaches in order to improve the accuracy of data fusion results, provide a more effective method for data quality management, and lay a solid foundation for various large-scale data analytics applications.
海量数据推动了各种基于数据驱动的技术革新,并且形成巨大的潜在经济效益。各类应用技术的开展,对数据质量提出较高要求。海量数据通常具有规模大、来源多、质量良莠不齐的特点,往往需要利用多个数据源的信息加以融合,去伪存真。传统数据融合技术多基于针对数据源可信度的分析,对数据的自身规律并没有加以挖掘,因而效果具有局限性。为此,本课题将探索一套基于数据隐语义分析的多源数据融合方法,拟对海量结构化待融合数据的特点加以抽象,建立适当的隐语义模型,该模型用于解释各数据条目的合理性与潜在生成方式,可帮助从冲突数据条目中发现真值。课题将设计算法确定模型参数,即进行模型求解,依据解得的模型对各数据条目的候选值正确概率加以估计,并将基于隐语义分析的模型与传统的基于数据源分析的模型相结合,构建统一框架,进而提高数据融合结果的准确率,形成更有效的数据质量控制机制,为各类海量数据分析应用的开展奠定基础。
海量数据推动了各种基于数据驱动的技术革新,并且形成巨大的潜在经济效益。海量数据通常具有规模大、来源多、质量良莠不齐的特点,往往需要利用多个数据源的数据,深入挖掘数据的自身规律,挖掘隐含语义信息,并以信息融合的方式,形成多源数据的有效表征。传统数据融合技术多采用生成模型,以无监督的方法对数据隐含语义进行特征抽取,效果具有局限性。为此,本课题研究数据隐语义分析模型的适用性;研究多源数据下隐语义分析模型的建立与求解;研究语义分析模型下的数据融合方法;研究基于语义分析的数据融合方法与现有数据融合技术的结合与优化;研究数据融合平台与应用。所提出的基于数据隐语义分析的多源数据融合方法,对海量待融合数据的特点进行深度挖掘和抽象,为各类应用的展开提供支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于国产化替代环境下高校计算机教学的研究
智能煤矿建设路线与工程实践
基于直觉模糊二元语义交互式群决策的技术创新项目选择
基于PROSAIL模型和多角度遥感数据的森林叶面积指数反演
区块链技术:从数据智能到知识自动化
基于多源知识融合的事实型隐式情感分析研究
基于深度学习的多源异构质检大数据融合与分析技术研究
多源知识图谱下大规模语义数据的融合及检索方法
基于生态大数据的信息物理融合系统语义模型分析关键技术研究