The number of users increases sharply in the social network. More than 160 million people in China start using the social network to share their photos and videos. Such a large scale users and data pose new challenges for the data management system. The conventional database system fails to deliver a sastisfied performance for the social networks. Therefore, in this project, we propose to exploit the Cloud computing techniques to support the applications of social networks. The intuition is to model the social network as a large graph and apply the graph partitioning techniques to split the graph into many sub-graphs. Each sub-graph will be dissemnated to a specific Cloud node, which responds for handling data of users in the sub-graph. Then, we can use the Cloud algorithms to handle the social network problems. The above strategy involves a set of research topic, such as graph partitioning, distributed indexing, concurrent query engine and social network real-time analysis. All the topics are very challenging and will attract the interest of researchers from different communities. In this project, we plan to deliver a arch-type system, which can be deployed on the real Cloud environment, serving current social networks. Our research work will be published in a few top conferences and journals.
社交网络的用户量和数据都在急速增长,在我国有超过1.6亿人在使用社交网络。社交网络数据处理系统必须能够处理海量数据,能够支持高并发查询,能够对数据进行有效的分析。传统的数据库系统已经无法支持新型的社交网络应用,成为了制约社交网络发展的一大障碍。针对这一问题,本研究将云计算技术和社交网络相结合,通过设计新型的云数据处理平台来利用云计算的无限计算资源为社交网络服务。为了将社交网络存储在云平台上,我们将研究如何把社交网络数据转化为图模式,然后按照分而治之的策略将整个社交网络图切分为若干子图,每个子图都被分散到不同的云计算节点来进行处理。在这一策略中,本研究需要解决一系列的科研难题,比如:图划分问题、分布式索引问题、并发查询引擎问题以及社交网络实时分析等。每一个子项都涉及到目前国内外非常前沿的科研课题。本项目将研发一个原型系统部署在真实的云环境中。具体的研究成果,将发表在国内外知名刊物和会议中。
在可以预见的未来几年,社交网络还将高速成长,虚拟世界将和现实世界进一步融合,信息将无缝的传播。为了支持这样的海量、高增长型应用,数据库必须结合云计算技术,修改已有的体系结构和算法,设计新型的海量高效可扩展的存储系统,以契合社交网络应用的需求。因为社交网络独特的性质,要达到海量、高效和可扩展这三个要求,存储系统需要解决诸多技术挑战。首先,不同于其他关系数据库系统,社交网络中的人们根据朋友关系以图的方式连接起来,社交网络中的查询也和这种图结构相关,必须设计以图模型为核心的存储和处理平台;其次,社交网络即强调查询的实时性,也需要对用户的行为进行大数据分析,因此需要一个混合式的查询处理和索引机制,能够同时有效的支持两类应用;最后,社交网络分析涉及大量的分析模型,数据是动态的实时变化的,巨大的用户数也导致需要分析的数据异常庞大,以往的数据挖掘算法不再适用,因此必须因地制宜的设计出新的数据挖掘算法。基于以上考量,本课题探讨如何使用云计算存储技术来处理大型社交网络中的海量数据,通过弹性处理、并行算法、分布式索引等云特性来为社交网络应用提速,以解决当前社交网络数据管理系统的不足。本课题的具体研究内容包括:社交网络图的云存储算法、社交网络的云索引结构、社交网络的并行分析算法以及社交网络个性化服务算法等关键问题。项目开展过程中的主要研究成果包含:一个新型的社交网络图处理框架,解决了谷歌Pregel框架中的消息瓶颈问题,通过两阶段处理机制避免了冗余信息;在该框架下,实现了整合时空社交信息的新型推荐模型,促进了将弱社交关系转化为强社交关系,适用于移动互联网应用;针对社交网络数据库的隐私问题,提出了特殊的K匿名算法,根据用户查询模式对数据进行动态的切分和匿名保护;为了进一步的加速社交网络大数据的处理,实现了基于SSHD新硬盘的大数据分析系统HM,该系统使用列存存储框架,提高MapReduce任务的性能5倍以上,接近纯SSD闪存的性能,并且存储价格只有SSD的1/10;针对社交网络中的多种应用需求,在HM系统上面构建了新型的分布式文件中间件,能够在任何分布式文件系统上支持基于位图的索引查询,大大降低了文件系统的I/O代价。通过一系列的科研进展,形成了以HM系统为核心的社交网络大数据处理平台。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于图卷积网络的归纳式微博谣言检测新方法
支持位置服务社交网络中多元偏好查询处理技术
社交网络环境下基于动态信任建模的云服务推荐方法研究
云媒体社交网络下的数字媒体内容安全与版权保护
云存储环境下动态社交网络数据隐私保护及安全服务技术