Record linkage from different data sources to improve data quality plays an increasingly significant role in health care, government services, and business applications. The current solution still has the problem of insufficient efficiency and inefficient execution on large data sets. Due to the complex data sources, large data scale and fast update speed in Big Data Age, we propose an effective method to improve the quality of record linkage, design efficient algorithms to improve the efficiency on large data sets, and study the complex adaptive indexes for Big Data environment, the proposed technology makes it possible to link the records in real time when the new data arrives..We propose an effective method to improve the quality of record linkage in Big Data environment, including the similarity approximate matching method for similarity comparison of data from different sources and with different accuracy, designing the logistic regression classifier, presenting the probabilistic transformation rules based on coding domain knowledge and confidence; we propose an efficient method to improve the efficiency of record linkage, including the hierarchical clustering method of primary data, and the fast calculating algorithm for record similarity measure. We also put forward the fast processing method for data update and study the possibility of developing parallel algorithms on the Hadoop system, to improve the running time in proportion to the number of processors.
将来自不同数据源的记录连接来提高数据质量在医疗保健,政府服务以及商业应用中起到越来越重要的作用。目前的解决方案仍然存在有效性不足和对大数据集的执行效率不高的问题。我们针对大数据环境下数据来源复杂,数据规模巨大以及更新速度快的特点,提出有效的方法来提高记录连接的质量,设计高效的算法来提高大数据集的执行效率,研究复杂的自适应索引技术使得数据到达组织时,能够近实时地连接数据。.我们提出了大数据环境下提高记录连接的质量的有效方法,包括对不同来源和准确度的数据进行相似性比较的近似匹配方法研究,利用逻辑回归的分类器的设计方法,提出编码领域知识和置信度的概率变换规则;我们提出了提高记录连接的效率的方法的研究,包括原始数据的分层聚类方法,记录相似性度量的快速计算方法;我们还对大数据的更新数据提出了快速处理方法,并研究在Hadoop系统上开发并行算法的可能性,旨在根据处理器数量成比例地改进执行时间。
文本信息处理是大数据应用中的难点。由于文本存在简写、多样化表述、甚至排版错误的情况,能否对语义相同的文本进行识别和聚类,将直接影响到大数据分析的效果。针对目前的解决方案存在的有效性不足和对大数据集的执行效率不高的问题,本项目提出了大数据环境下提高文本处理的质量的有效方法,主要研究内容:(1)包括对不同来源和准确度的数据进行相似性比较的近似匹配方法研究(2)利用逻辑回归的分类器的设计方法,提出编码领域知识和置信度的概率变换规则;(3)研究在Hadoop系统上开发并行算法的可能性,旨在根据处理器数量成比例地改进执行时间。.我们在文本信息处理中的自动补全方面取得了重要结果,使用编辑距离约束来容忍用户输入错误的查询自动完成问题,获得的重要结果包括(1)通过利用删除标记的变体来解决具有编辑距离约束的容错查询自动完成问题,开发用于查询处理的索引,搜索和结果获取技术,以及将索引大小减小到可承受水平的优化技术。(2)设计了两种基于邻域生成的算法IncNGTrie和IncNGTrie +,实现了非常小的且对字母不敏感的活动节点大小,以加速查询处理。(3)我们对几个真实的数据集进行了广泛的实验。在查询响应时间方面,所提出的方法已显示出明显优于以前的方法。.研究成果包括:已发表或录用论文6篇,其中CCF推荐A类论文1篇,申请国家发明专利1项;培养硕士研究生5名,其中已毕业2名;已超额完成项目成果指标。.本项目的科学意义包括:(1)开发了一种改进的搜索算法,以减少活动状态的数量和搜索时间。(2)用更快,更容易理解的方式替换了之前技术中重复项的原始重复项删除技术。(3)为了回答前k个查询,开发扩展技术并评估了新技术和top-k查询处理的性能。该方法对文本信息处理中的查询问题的速度提高方面,有着重要的科学意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于多模态信息特征融合的犯罪预测算法研究
肉苁蓉种子质量评价及药材初加工研究
中外学术论文与期刊的宏观差距分析及改进建议
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源大数据环境下胰腺肿瘤辅助诊断决策方法研究
云计算环境下大规模多源遥感数据高效组织方法研究
面向多源数据的多粒度计算方法研究
多源RDF数据冲突消解方法研究