数据质量管理中实体识别关键技术的研究

基本信息
批准号:61003046
项目类别:青年科学基金项目
资助金额:18.00
负责人:王宏志
学科分类:
依托单位:哈尔滨工业大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:杨东华,张硕,刘显敏,王金宝,黎玲利,孟啸,姜国华
关键词:
图数据海量数据数据质量管理XML数据实体识别
结项摘要

数据质量管理对数据的有效使用起着决定性作用。实体识别是数据质量管理的重要步骤,目的是在一个或多个数据库中辨识描述同一个实体的不同表示方法,正确地识别出数据库中的所有不同实体,其结果是数据库中所有不同实体的集合以及每个实体的不同描述方法。然而,当前的实体识别技术难以有效处理大数据量、更新频繁和具有复杂结构的数据,不能满足数据质量管理的要求。本课题从数据管理的角度,研究数据质量管理中实体识别的理论和关键技术,其目的是快速有效地处理大数据量、更新频繁和具有复杂结构数据上的实体识别,获得具有质量保证的识别结果,为数据质量管理提供有效的支持。本课题研究内容包括实体识别结果质量评估方法、海量动态结构化数据上实体识别方法、海量动态非结构化数据(重点是XML数据和图数据)上实体识别方法,并研制相应的实体识别原型系统,验证课题所提出的理论和方法。

项目摘要

本课题是国家自然科学基金青年基金项目“数据质量管理中实体识别关键技术的研究”,该课题以数据质量管理为背景,研究实体识别结果质量评估、海量动态关系数据上实体识别、海量动态XML数据上实体识别、海量动态图数据集合上实体识别、大规模复杂网络上实体识别以及多种混合数据上海量数据实体识别的关键技术。按照研究计划,课题组人员开展的研究工作,提出了基于概率的实体识别结果质量评估方法、针对海量动态关系数据提出了基于属性顺序规则和基于波形的关系数据实体识别算法、基于Map-Reduce的并行关系数据实体识别方法以及不确定关系数据和基于众包的关系数据实体识别算法;针对海量动态XML数据提出了支持XML文档片段实体识别的XML数据片段近似匹配算法、大规模XML数据实体识别算法、用于XML数据流上实体识别的关键字匹配和路径匹配算法;针对海量动态图数据提出了支持图集合实体识别的图数据近似匹配算法和增量匹配算法、支持实体识别的复杂网络压缩存储与模式匹配和路径匹配算法;针对多种结构混合数据实体识别提出了数据对象特征的聚类算法、基于上下文的实体识别技术和支持混合数据实体识别基本操作和查询优化算法等理论和技术。发表论文36篇,SCI收入3篇, EI收录26篇,学术章节3篇,并基于本项目提出的技术开发海量数据实体识别原型系统和基于实体的商品检索技术。课题组成员17人次担任国内外学术会议组织委员会委员。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021

王宏志的其他基金

批准号:51172042
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:40771088
批准年份:2007
资助金额:45.00
项目类别:面上项目
批准号:51672043
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:50772022
批准年份:2007
资助金额:30.00
项目类别:面上项目
批准号:61472099
批准年份:2014
资助金额:82.00
项目类别:面上项目
批准号:51072034
批准年份:2010
资助金额:37.00
项目类别:面上项目
批准号:U1509216
批准年份:2015
资助金额:190.00
项目类别:联合基金项目

相似国自然基金

1

数据质量管理中的完整性约束关键技术研究

批准号:61370101
批准年份:2013
负责人:金澈清
学科分类:F0202
资助金额:73.00
项目类别:面上项目
2

数据质量管理的基础理论与关键技术

批准号:61133002
批准年份:2011
负责人:樊文飞
学科分类:F0202
资助金额:270.00
项目类别:重点项目
3

大数据环境中面向实体的精准集成关键技术研究

批准号:61672142
批准年份:2016
负责人:聂铁铮
学科分类:F0202
资助金额:63.00
项目类别:面上项目
4

藏语命名实体识别关键技术研究

批准号:61303165
批准年份:2013
负责人:诺明花
学科分类:F0211
资助金额:22.00
项目类别:青年科学基金项目