网络数据服务中搜索引擎为信息检索提供方便,但存在急需解决的问题:①面对大量的查询结果,用户通常很难快速分辨结果的有效性和可信性,排在前面的结果不一定是质量上乘和可信的,可信性需求尤为迫切。②网络信息是以多种形态存在并相互关联,各数据资源混合存放,还没有一个成熟的服务管理软件有效地自动管理,大多需要半自动将其进行形态分类、形式化封装,无法进行有效的语义查询和多态深层查询,更无法直接得到资源之间的关联关系,导致数据资源利用率不高。本项目针对开放复杂数据服务环境,对异地异构资源进行透明、有效而统一的管理;依据资源语义,实现数据服务的多态查询;依据可信知识扩展查询,保证查询结果的可信。研究内容:①多态数据资源的物理建模与逻辑组织;②多态查询与查询优化策略;③可信知识扩展检索,基于主题、语义和情感倾向分析进行可信评估。旨意通过多态计算快速查询高可信高价值信息,为云服务、效用计算提供理论依据。
本项目针对开放复杂数据服务环境,对异地异构资源进行透明、有效而统一的管理。依据资源语义,实现数据服务的多态查询。依据可信知识扩展查询,保证多态查询结果的可信。研究完成了:(1)结合数据库的高性能和MapReduce的容错性、扩展性,设计与实现了基于代价高效的大规模多态数据资源集成的系统HyDB。首次实现了新的存储模型、混合模型下基于代价的查询优化方案、最优计划搜索算法。(2)多态数据资源的物理建模与逻辑组织,研究是在混合架构的基础上提高查询效率. 由于混合架构中,开销最大的是利用MapReduce 做连接操作和聚集操作的部分,针对复杂表关系和查询负载无法做到准确的分析。所以提出混合架构上的划分建议器,根据代价模型选择相对负载下代价最小的划分方式,提高查询效率。(3)查询处理与查询优化算法,有效提高查询效率。我们进行关键字的可信实体查询、基于历史查询信息的关键字检索研究,我们提出集成众包的关键字查询,将人计算与机器计算结合扩展众包查询,项目实现可信实体多态查询与查询优化策略。(4)基于自然语言的情感分析我们进行可信评估与推荐。根据主观和客观评论信息,判断电影的类型,进行情感分析。具体做法是:首先系统利用词法分析、句法分析解析主观评论。再则利用SentiWordNet情感词集和情感词典分析打分,给出最合适的推荐。(5)系统包括:网页信息可信判定,可信评估知识的获取与知识库的建立。系统通过自然语言处理,评论倾向分析和网页发布溯源,可以对用户反馈的观点、事实陈述信息进行可信评估。(6)我们开发了多维度协同过滤算法支持可信推荐评估。实现可信知识扩展检索,应用自然语言处理,相似匹配过滤大量噪音信息;基于项目、用户、主题和语义分析进行可信评估与推荐。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
混采地震数据高效高精度分离处理方法研究进展
国际比较视野下我国开放政府数据的现状、问题与对策
可信云存储数据服务理论与方法研究
云计算中抗不可信查询者的加密数据kNN查询机制研究
移动互联网中数据服务外包与隐私保护关键技术研究
数据服务运行时的性能优化关键技术研究