Entity approximate matching, as an essential operation in textual data mining, is widely applied to many areas such as information retrieval, entity identification, data cleaning and data integration. With the continuous development of information technology, text data grew rapidly. The diversity of domains and characteristics of the data results in complicated situations of entity matching. The existing entity approximate matching methods have defects and shortcomings in the degree of intelligence, matching quality and matching scale. This project studies the key techniques of intelligent entity approximation matching under massive text data, and aims to explore the inherent and objective rules of entity matching in massive data and improve the quality. The main research points include the analysis of the characteristics of massive text data, the analysis of entity approximate matching in multi-domain text data, the multi-angle based analysis of entity approximate matching, the construction of knowledge model of entity approximate matching, the feedback and automatic learning mechanism with less human intervention, the performance optimization and storage optimization methods of the intelligent entity approximate matching under massive data. The research results of this project will provide a good support for the data analysis and processing under massive text data, promote intelligent text processing, and improve the quality of massive data, thus have promising prospects.
实体近似匹配作为文本数据挖掘中的一个基本操作,被广泛的应用于信息检索、实体识别、数据清洗与数据集成等诸多领域。随着信息技术的不断发展,文本数据飞速增长。数据的领域和特点多种多样,导致数据中的实体近似匹配情况错综复杂。现有的实体近似匹配方法在智能化程度、匹配的质量和匹配规模上存在缺陷和不足。本项目针对海量文本数据下的实体智能近似匹配的关键技术进行研究,旨在深度挖掘海量数据中实体近似匹配的内在的、客观的规律,提高近似匹配质量。主要的研究内容包括:海量文本数据的特征分析、多领域文本数据中实体近似匹配情况分析、基于多角度的实体近似匹配分析、实体近似匹配的知识模型构建、少人工干预下的反馈与自动学习机制、海量规模数据下的实体智能近似匹配的性能优化与存储优化方法等。本项目的研究成果将为海量文本数据下的数据分析和处理提供良好的支撑,达到推动智能化文本处理以及提升海量数据的质量的目的,具有广阔的前景。
本课题围绕海量文本数据下智能实体近似匹配问题开展研究。面对海量的不断增长的半结构化和无结构化文本数据,现有方法大多存在着依赖人工选择匹配条件,实体近似匹配的质量不高,缺乏有效的反馈和学习机制,以及匹配规模和效率上面临挑战等方面的问题。本项目研究的总体目标是突破传统实体匹配的技术瓶颈,提高实体匹配的智能化水平。课题组针对现有方法中存在的问题,研究了海量文本数据下的智能实体识别、文本分类、实体关系挖掘、性能优化等方面的关键技术。具体研究内容包括:1) 高质量的支持容错的文本实体挖掘方法,通过构建支持容错的实体识别模型,最大化实体全局识别概率, 提高实体识别的质量。 2) 提出面向文本数据的自动质量检测与数据清洗方法,兼顾考虑实体拼写正确性和上下文环境中的关联程度,来提高文本数据清洗的质量。 3) 提出了基于范围的文本分类卷积神经网络,来学习和捕获实体之间的局部连接高维特性,实现更加灵活而深层的实体信息挖掘。 4) 提出了基于动态规划和树状索引的优化匹配策略和索引方法,来加速实体匹配的效率,减少时间开销。在项目资助期间,这四方面的研究计划均取得了一些成果, 基本上实现了在大规模文本数据上的智能实体近似匹配。整体来看,通过三年的努力,已完成项目目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
面向海量文本的维吾尔文命名实体识别关键理论及技术研究
海量局部近似图像检索关键技术研究
面向海量信息管理的中文文本数据库关键技术研究
基于子图近似匹配的海量知识图谱分布式查询技术研究