Microblog is an emerging type of social media. With a microblogging platform, users can publish information with very short text, leading to real-time sharing of information and communication between users. Microblogging platforms, most notably Twitter, have undergone a tremendous growth in the past few years, generating a huge volume of data. It is estimated that the data volume at Twitter is increasing at a rate of 8TB/day. It therefore becomes critical to retrieve microblogs or users of interest from this vast amount of data. This project aims to address this problem from two aspects: computation infrastructure and query processing. We expect to make the following contributions with this project: (1) we propose the system architecture of a real-time stream processing platform and a set of key techniques, to achieve high performance, high availability, and high reliability; (2) we develop new ranking strategies for microblog search, and for spatially sensitive queries, develop index structures and query processing methods for real-time processing of queries; and (3) we define the problem of similarity search of users based on the contents of microblogs, and propose index structures and methods for incremental update of search results, for more effective user recommendation.
微博是一种新型的社会化媒体。通过微博平台,用户可以用简短的文字发表信息,实现信息的实时共享和用户间的交流。以Twitter为代表的微博平台在过去几年间得到了迅猛发展,也带来了大量的数据,如Twitter每天新增的数据量达到了8TB。如何从这样海量的数据中查询感兴趣的微博或用户,是一个必须要解决的问题。本项目从实际应用的需求出发,针对微博数据量大、更新频率高、实时性强、用户信息丰富等特点,从底层的计算平台及其上的查询处理两个方面展开研究,预期做出如下贡献:(1)提出面向微博的实时流数据处理平台的体系结构及关键技术,实现数据处理的高性能、高可用性和高可靠性;(2)提出新的微博搜索结果排序策略,并研究针对空间敏感型查询的索引结构和算法,实现查询的高效实时处理;(3)提出基于微博内容的相似用户查询这一问题,给出索引结构和结果的增量计算方法,实现更精准和高效的用户推荐。
本项目针对微博数据量大、更新频率高、实时要求性强、用户信息丰富的实际特点,主要开展了以下三方面的研究:1)提出一系列面向微博的实时流数据处理平台体系结构及关键技术,建立有效的微博实时计算原型系统,为微博数据处理提供底层支撑;2)提出一套针对微博空间查询的索引结构和算法,改进微博搜索的效果,提升用户体验;3)提出新型的基于微博内容的近似用户查询方法及所需的索引结构及查询算法,更好的满足微博平台社交功能的要求。本项目的研究内容是微博数据管理所急需解决的关键技术,也是目前相关领域学术界、工业界共同关注的研究热点,具有重要的科学意义和很高的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
黄河流域水资源利用时空演变特征及驱动要素
敏感性水利工程社会稳定风险演化SD模型
基于图卷积网络的归纳式微博谣言检测新方法
卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比
极地微藻对极端环境的适应机制研究进展
面向FAST的海量数据处理关键技术研究
面向Web社会网络的查询处理关键技术研究
面向国家治理的云计算环境下联网审计流数据处理关键技术研究
数据流模糊关键字查询处理技术研究