Web数据集成由于其特殊性,给数据质量管理带来了新的挑战和机遇。本项目研究Web数据集成中的若干数据质量管理问题,包括:Web数据源选择;Web数据集成中的实体关联,包括离线实体关联、在线实体关联和实体关联更新;数据融合。总体思路是,将用户反馈作为出发点和突破口,根据Web数据源和Web数据集成的特点,基于用户反馈学习解决方案。该思路利用了Web数据集成的特点,探索了数据质量管理的新方法。具体来说,基于数据源质量和用户反馈来选择Web数据源;以用户反馈为指导,利用Web语境和隐式关系进行离线实体关联,基于用户反馈和查询松弛进行在线实体关联,通过Web页面更新识别实现实体关联更新;通过属性分类和属性可信度计算实现数据融合。项目提出的基于用户反馈的数据源选择方法、基于用户反馈的实体关联方法和基于群体的实体关联方法具有创新性。
Web数据集成由于其特殊性,给数据质量管理带来了新的挑战和机遇。本项目研究Web数据集成中的若干数据质量管理问题,包括:深网数据源选择,实体识别与实体关系抽取,XML结点语义权重模型与XML片段检索,半结构化数据的关键词查询,XML查询扩展,Web商品评论特征提取与虚假内容识别,Web金融评论的情感评价单元抽取与情感计算。创新性工作体现在:提出了基于数据质量的数据源选择策略,以及面向检索型关键词查询的、面向混合类型关键词查询的非合作结构化深网数据源选择模型;提出了依存句法关系组合特征、最近句法依赖动词特征及其提取方法,以及基于上述特征的实体关系抽取策略;提出了一种基于主题概括强度的结点(标签/路径)语义权重模型(ATG模型)以及基于ATG模型的XML片段检索策略,提交的片段检索结果在INEX 2011评测中获得了第一名的成绩;设计了一种多特征融合的文摘句抽取方法,提出一种基于随机冲浪模型的多XML文档自动文摘的句子重排方法;提出了一种新的描述半结构化查询的模型,称为带结构的关键词查询模型;定义了一种新的原型的距离度量,称为基于松弛的原型距离,并基于该距离提出了一种XML关键词搜索结果多样化的新思路;针对带约束的排序查询问题,提出了一种新的查询处理框架,该框架的思路是:为了处理对象的空间位置,构建一棵R树,同时,为了支持空间位置、数值属性和文本描述上的查询,对R树进行增强,使得在R树中遍历的同时,可以同时评估空间位置、数值属性,以及文本描述上的约束和排序条件,并采取经典的Best-first算法来指导查询的执行;提出了基于词义相似度和上下文相关度相结合的词聚类度量方法,并基于此度量提出了一种基于词聚类先验知识的商品主题特征提取模型WC-LDA;提出了一种基于行为和内容的虚假评论识别方法;提出了3类词语关联的定义、全局特征词约束的概念以及发现方法,并在此基础上提出了弱监督的AC-LDA主题模型,设计了全局特征词约束和词语关联约束改变主题词概率分配的影响机制,并利用全局特征词、词语关联强度的先验知识指导LDA进行主题挖掘;提出了基于浅层语义与语法分析相结合的评价对象-情感词对抽取规则,基于特殊情感词搭配表、上下文搭配表及频繁搭配表提出了隐式评价对象识别的新思路;提出了针对中文Web金融评论的基于词性与依存句法分析的情感计算规则,提出了基于二叉树的情感计算策略。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
跨社交网络用户对齐技术综述
拥堵路网交通流均衡分配模型
面向移动用户的Web数据集成技术研究
面向用户的数据质量管理方法研究
面向Web数据集成的半结构化Web数据自适应抽取与整合问题研究
WEB数据抽取与集成技术研究