基于用户反馈的Web数据集成中的数据质量管理

基本信息

批准号：61173146

项目类别：面上项目

资助金额：57.00

负责人：万常选

学科分类：

依托单位：江西财经大学

批准年份：2011

结题年份：2015

起止时间：2012-01-01 - 2015-12-31

项目状态：已结题

项目参与者：刘德喜,刘喜平,钟敏娟,江腾蛟,焦贤沛,邓松,李国林,杨莉

关键词：

用户反馈数据源选择Web数据集成实体关联数据质量

结项摘要

Web数据集成由于其特殊性，给数据质量管理带来了新的挑战和机遇。本项目研究Web数据集成中的若干数据质量管理问题，包括：Web数据源选择；Web数据集成中的实体关联，包括离线实体关联、在线实体关联和实体关联更新；数据融合。总体思路是，将用户反馈作为出发点和突破口，根据Web数据源和Web数据集成的特点，基于用户反馈学习解决方案。该思路利用了Web数据集成的特点，探索了数据质量管理的新方法。具体来说，基于数据源质量和用户反馈来选择Web数据源；以用户反馈为指导，利用Web语境和隐式关系进行离线实体关联，基于用户反馈和查询松弛进行在线实体关联，通过Web页面更新识别实现实体关联更新；通过属性分类和属性可信度计算实现数据融合。项目提出的基于用户反馈的数据源选择方法、基于用户反馈的实体关联方法和基于群体的实体关联方法具有创新性。

项目摘要

Web数据集成由于其特殊性，给数据质量管理带来了新的挑战和机遇。本项目研究Web数据集成中的若干数据质量管理问题，包括：深网数据源选择，实体识别与实体关系抽取，XML结点语义权重模型与XML片段检索，半结构化数据的关键词查询，XML查询扩展，Web商品评论特征提取与虚假内容识别，Web金融评论的情感评价单元抽取与情感计算。创新性工作体现在：提出了基于数据质量的数据源选择策略，以及面向检索型关键词查询的、面向混合类型关键词查询的非合作结构化深网数据源选择模型；提出了依存句法关系组合特征、最近句法依赖动词特征及其提取方法，以及基于上述特征的实体关系抽取策略；提出了一种基于主题概括强度的结点(标签/路径)语义权重模型(ATG模型)以及基于ATG模型的XML片段检索策略，提交的片段检索结果在INEX 2011评测中获得了第一名的成绩；设计了一种多特征融合的文摘句抽取方法，提出一种基于随机冲浪模型的多XML文档自动文摘的句子重排方法；提出了一种新的描述半结构化查询的模型，称为带结构的关键词查询模型；定义了一种新的原型的距离度量，称为基于松弛的原型距离，并基于该距离提出了一种XML关键词搜索结果多样化的新思路；针对带约束的排序查询问题，提出了一种新的查询处理框架，该框架的思路是：为了处理对象的空间位置，构建一棵R树，同时，为了支持空间位置、数值属性和文本描述上的查询，对R树进行增强，使得在R树中遍历的同时，可以同时评估空间位置、数值属性，以及文本描述上的约束和排序条件，并采取经典的Best-first算法来指导查询的执行；提出了基于词义相似度和上下文相关度相结合的词聚类度量方法，并基于此度量提出了一种基于词聚类先验知识的商品主题特征提取模型WC-LDA；提出了一种基于行为和内容的虚假评论识别方法；提出了3类词语关联的定义、全局特征词约束的概念以及发现方法，并在此基础上提出了弱监督的AC-LDA主题模型，设计了全局特征词约束和词语关联约束改变主题词概率分配的影响机制，并利用全局特征词、词语关联强度的先验知识指导LDA进行主题挖掘；提出了基于浅层语义与语法分析相结合的评价对象-情感词对抽取规则，基于特殊情感词搭配表、上下文搭配表及频繁搭配表提出了隐式评价对象识别的新思路；提出了针对中文Web金融评论的基于词性与依存句法分析的情感计算规则，提出了基于二叉树的情感计算策略。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.1007/s11192-020-03387-8

发表时间：2020

DOI：10.16031/j.cnki.issn.1003-8035.2019.05.04

发表时间：2019

万常选的其他基金

批准号：60763001

批准年份：2007

资助金额：21.00

项目类别：地区科学基金项目

批准号：61562032

批准年份：2015

资助金额：40.00

项目类别：地区科学基金项目

相似国自然基金

面向移动用户的Web数据集成技术研究

批准号：61379050

批准年份：2013

负责人：孟小峰

学科分类：F0202

资助金额：73.00

项目类别：面上项目

面向用户的数据质量管理方法研究

批准号：61472263

批准年份：2014

负责人：周晓方

学科分类：F0202

资助金额：83.00

项目类别：面上项目

面向Web数据集成的半结构化Web数据自适应抽取与整合问题研究

批准号：61303007

批准年份：2013

负责人：丁艳辉

学科分类：F0202

资助金额：23.00

项目类别：青年科学基金项目

WEB数据抽取与集成技术研究

批准号：60273018

批准年份：2002

负责人：孟小峰

学科分类：F0202

资助金额：22.00

项目类别：面上项目

基于用户反馈的Web数据集成中的数据质量管理

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

智能煤矿建设路线与工程实践

二维FM系统的同时故障检测与控制

A tale of two databases: the use of Web of Science and Scopus in academic papers

“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型

万常选的其他基金

基于隐式反馈和伪反馈的XML文本文档检索技术研究

基于语义挖掘的Web金融信息情感分析关键技术研究

相似国自然基金