基于用户反馈的不确定性数据清洗技术研究

基本信息
批准号:61003086
项目类别:青年科学基金项目
资助金额:20.00
负责人:陈晋川
学科分类:
依托单位:中国人民大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:卢卫,杜方,蒋梦霞,聂志
关键词:
用户反馈不确定性数据
结项摘要

在数据密集型计算环境下,不确定性数据已广泛地出现于以数据集成系统为代表的大量应用中。有效地清除不确定性数据是提高应用系统服务质量的客观要求。过往关于不确定性数据清洗的研究多侧重于对清洗对象的选择,依赖领域专家或已有领域知识来得到准确数据。本课题旨在利用用户对查询结果的反馈自动清除系统中的不确定性数据。该方法可避免领域专家繁重的人工劳动,满足海量不确定性数据管理的需求。同时,用户反馈多的数据对象必然具备高的使用价值,因此,我们的方法还可优化对清洗对象的选择,最大限度地利用系统资源提供尽可能好的服务。本课题基于可能世界模型,研究通过索引(如PW Tree)快速从用户反馈定位到源数据;研究通过数据挖掘的手段从大量反馈中自动归纳可能的通用知识规则,以清除尚未被反馈涉及的错误数据;研究通过更新参数的方法快速更新数据库。项目的研究成果将对大规模数据管理系统的研制提供有力的支持。

项目摘要

不确定性数据的处理是当前学术界和产业界的共同焦点。在很多实际应用系统中,不确定性数据规模与日俱增,已影响到了用户体验。为了提升服务质量,我们迫切需要高效清洗不确定性数据的技术。本课题提出利用用户的反馈来清洗不确定性数据的方法,与传统的数据清洗方法相比,具有精度高,成本低,知识资源丰富等优点。此外,本课题还提出了将用户的反馈自动转换为知识约束的方法,避免了逐一扫描所有的可能世界,极大地提高了效率。本课题还进一步提出通过缓存中间结果来进一步提高反馈处理效率的技术,该技术不但可以加速不确定性数据清洗过程,还可应用于概率推断和概率查询等其他不确定性数据的操作。上述方法的有效性和性能已经在大规模真实数据和人工数据集上进行了检验。在此基础上,还开发了原型系统。课题部分研究成果已经在高水平的国际会议上发表,并已申请了国家专利。在国家自然科学基金的支持下,我们顺利了完成了课题的工作,下一步计划展开更为深入的研究,例如处理不精确的用户反馈,以及通过设计用户界面来获取更有效的反馈知识等。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

陈晋川的其他基金

相似国自然基金

1

基于群体智能的数据清洗技术研究

批准号:61902017
批准年份:2019
负责人:郝爽
学科分类:F0202
资助金额:28.00
项目类别:青年科学基金项目
2

基于众包的数据清洗关键技术研究

批准号:61472198
批准年份:2014
负责人:冯建华
学科分类:F0202
资助金额:86.00
项目类别:面上项目
3

基于用户反馈的Web数据集成中的数据质量管理

批准号:61173146
批准年份:2011
负责人:万常选
学科分类:F0207
资助金额:57.00
项目类别:面上项目
4

基于用户反馈的移动应用可信评估与演化技术研究

批准号:61672274
批准年份:2016
负责人:徐锋
学科分类:F0202
资助金额:62.00
项目类别:面上项目