数据质量管理对数据的有效使用起着决定性作用。实体识别是数据质量管理的重要步骤,目的是在一个或多个数据库中辨识描述同一个实体的不同表示方法,正确地识别出数据库中的所有不同实体,其结果是数据库中所有不同实体的集合以及每个实体的不同描述方法。然而,当前的实体识别技术难以有效处理大数据量、更新频繁和具有复杂结构的数据,不能满足数据质量管理的要求。本课题从数据管理的角度,研究数据质量管理中实体识别的理论和关键技术,其目的是快速有效地处理大数据量、更新频繁和具有复杂结构数据上的实体识别,获得具有质量保证的识别结果,为数据质量管理提供有效的支持。本课题研究内容包括实体识别结果质量评估方法、海量动态结构化数据上实体识别方法、海量动态非结构化数据(重点是XML数据和图数据)上实体识别方法,并研制相应的实体识别原型系统,验证课题所提出的理论和方法。
本课题是国家自然科学基金青年基金项目“数据质量管理中实体识别关键技术的研究”,该课题以数据质量管理为背景,研究实体识别结果质量评估、海量动态关系数据上实体识别、海量动态XML数据上实体识别、海量动态图数据集合上实体识别、大规模复杂网络上实体识别以及多种混合数据上海量数据实体识别的关键技术。按照研究计划,课题组人员开展的研究工作,提出了基于概率的实体识别结果质量评估方法、针对海量动态关系数据提出了基于属性顺序规则和基于波形的关系数据实体识别算法、基于Map-Reduce的并行关系数据实体识别方法以及不确定关系数据和基于众包的关系数据实体识别算法;针对海量动态XML数据提出了支持XML文档片段实体识别的XML数据片段近似匹配算法、大规模XML数据实体识别算法、用于XML数据流上实体识别的关键字匹配和路径匹配算法;针对海量动态图数据提出了支持图集合实体识别的图数据近似匹配算法和增量匹配算法、支持实体识别的复杂网络压缩存储与模式匹配和路径匹配算法;针对多种结构混合数据实体识别提出了数据对象特征的聚类算法、基于上下文的实体识别技术和支持混合数据实体识别基本操作和查询优化算法等理论和技术。发表论文36篇,SCI收入3篇, EI收录26篇,学术章节3篇,并基于本项目提出的技术开发海量数据实体识别原型系统和基于实体的商品检索技术。课题组成员17人次担任国内外学术会议组织委员会委员。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
数据质量管理中的完整性约束关键技术研究
数据质量管理的基础理论与关键技术
大数据环境中面向实体的精准集成关键技术研究
藏语命名实体识别关键技术研究