面向微博的实时流数据处理平台和查询处理关键技术研究

基本信息
批准号:61272092
项目类别:面上项目
资助金额:80.00
负责人:禹晓辉
学科分类:
依托单位:山东大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:刘洋,孔兰菊,于自强,杨崇,杨敏,林立伟,张甲燃,崔星灿,周婧
关键词:
社会媒体实时处理搜索数据管理微博
结项摘要

Microblog is an emerging type of social media. With a microblogging platform, users can publish information with very short text, leading to real-time sharing of information and communication between users. Microblogging platforms, most notably Twitter, have undergone a tremendous growth in the past few years, generating a huge volume of data. It is estimated that the data volume at Twitter is increasing at a rate of 8TB/day. It therefore becomes critical to retrieve microblogs or users of interest from this vast amount of data. This project aims to address this problem from two aspects: computation infrastructure and query processing. We expect to make the following contributions with this project: (1) we propose the system architecture of a real-time stream processing platform and a set of key techniques, to achieve high performance, high availability, and high reliability; (2) we develop new ranking strategies for microblog search, and for spatially sensitive queries, develop index structures and query processing methods for real-time processing of queries; and (3) we define the problem of similarity search of users based on the contents of microblogs, and propose index structures and methods for incremental update of search results, for more effective user recommendation.

微博是一种新型的社会化媒体。通过微博平台,用户可以用简短的文字发表信息,实现信息的实时共享和用户间的交流。以Twitter为代表的微博平台在过去几年间得到了迅猛发展,也带来了大量的数据,如Twitter每天新增的数据量达到了8TB。如何从这样海量的数据中查询感兴趣的微博或用户,是一个必须要解决的问题。本项目从实际应用的需求出发,针对微博数据量大、更新频率高、实时性强、用户信息丰富等特点,从底层的计算平台及其上的查询处理两个方面展开研究,预期做出如下贡献:(1)提出面向微博的实时流数据处理平台的体系结构及关键技术,实现数据处理的高性能、高可用性和高可靠性;(2)提出新的微博搜索结果排序策略,并研究针对空间敏感型查询的索引结构和算法,实现查询的高效实时处理;(3)提出基于微博内容的相似用户查询这一问题,给出索引结构和结果的增量计算方法,实现更精准和高效的用户推荐。

项目摘要

本项目针对微博数据量大、更新频率高、实时要求性强、用户信息丰富的实际特点,主要开展了以下三方面的研究:1)提出一系列面向微博的实时流数据处理平台体系结构及关键技术,建立有效的微博实时计算原型系统,为微博数据处理提供底层支撑;2)提出一套针对微博空间查询的索引结构和算法,改进微博搜索的效果,提升用户体验;3)提出新型的基于微博内容的近似用户查询方法及所需的索引结构及查询算法,更好的满足微博平台社交功能的要求。本项目的研究内容是微博数据管理所急需解决的关键技术,也是目前相关领域学术界、工业界共同关注的研究热点,具有重要的科学意义和很高的应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
2

敏感性水利工程社会稳定风险演化SD模型

敏感性水利工程社会稳定风险演化SD模型

DOI:10.16265/j.cnki.issn1003-3033.2021.04.003
发表时间:2021
3

基于图卷积网络的归纳式微博谣言检测新方法

基于图卷积网络的归纳式微博谣言检测新方法

DOI:10.3785/j.issn.1008-973x.2022.05.013
发表时间:2022
4

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

DOI:10.13249/j.cnki.sgs.2020.08.003
发表时间:2020
5

极地微藻对极端环境的适应机制研究进展

极地微藻对极端环境的适应机制研究进展

DOI:10.7685/jnau.201807013
发表时间:2019

禹晓辉的其他基金

批准号:61070018
批准年份:2010
资助金额:12.00
项目类别:面上项目

相似国自然基金

1

面向FAST的海量数据处理关键技术研究

批准号:U1531246
批准年份:2015
负责人:朱明
学科分类:A1503
资助金额:200.00
项目类别:联合基金项目
2

面向Web社会网络的查询处理关键技术研究

批准号:61003001
批准年份:2010
负责人:肖仰华
学科分类:F0202
资助金额:19.00
项目类别:青年科学基金项目
3

面向国家治理的云计算环境下联网审计流数据处理关键技术研究

批准号:61572079
批准年份:2015
负责人:李忱
学科分类:F0207
资助金额:66.00
项目类别:面上项目
4

数据流模糊关键字查询处理技术研究

批准号:60903047
批准年份:2009
负责人:王伟平
学科分类:F0202
资助金额:18.00
项目类别:青年科学基金项目