With the explosion of AI, we face an important opportunity for further development of visual media big data technologies. The processing of visual media big data can be implemented on general big data platform, e.g. Hadoop. However, the performance of visual media big data processing is affected by the conflict between its characteristics and the general design principles of these platforms. To address this problem, we will focus on the resources scheduling in general big data platform in this project. The key content of the project is the co-scheduling mechanisms of computing and network resources adapted to visual media big data processing (simply “CN co-scheduling” for short). . In this project, we first look at the key technologies of CN co-scheduling based on the characteristics of data and computing, including feature caching driven CN co-scheduling, data locality driven CN co-scheduling, and hashing-based transmission driven CN co-scheduling. Then, based on the common characteristics of these CN co-scheduling algorithms, we will propose an optimization theory of CN co-scheduling for visual media big data. Finally, we will design and implement the application framework of CN co-scheduling. The goal of this project is to realize more effective and efficient visual media big data processing on the general big data platform. Moreover, this project can give a successful case of fusing general and special computing in big data area, and point out a new research trend for big data.
随着人工智能迎来爆发元年,可视媒体(图像、视频)大数据技术和产业面临重要的发展机遇。虽然Hadoop等大数据平台能支撑可视媒体数据处理,但这些平台以通用性为目标的设计理念与可视媒体大数据所独有的数据及计算特性之间存在一定矛盾,成为可视媒体大数据处理的瓶颈所在。为解决这一问题,本项目将针对通用性大数据平台中的资源调度展开研究,重点研究适用于可视媒体大数据处理的计算与网络协同调度(简称计网协同)关键技术。. 首先,我们针对可视媒体的计算特性,研究面向特征缓存的计网协同;针对可视媒体的数据特性,研究面向数据本地化的计网协同,及面向哈希编码传输的计网协同。其次,针对三项关键技术,提炼面向可视媒体大数据的计网协同优化理论。最后,构建计网协同应用框架。本项目的目标是希望在通用性大数据平台上实现极为高效的可视媒体大数据处理,为大数据计算的通用与专用融合建立示范,并找出新的探索方向。
在当前大数据平台中,计算节点之间的网络传输往往成为瓶颈。据资料显示,即使优秀的大数据平台,其计算时间也只有20%,通信时间占了80%。在处理可视媒体大数据时,高维特征数据更加会产生极大的计算和通信开销,因此平台的效率与性能亟需改善。为此,本项目针对可视媒体大数据处理中的计算与网络协同调度(简称计网协同)关键技术展开研究,以提升可视媒体大数据处理的性能。.通过本项目的研究,突破了分布式哈希学习及计算模型,分布式计算下的Coflow调度机制等计网协同关键技术;构建了面向计网协同的可扩展SDN架构,及模块化网络功能编程系统,以此完善计网协同应用框架。最终为了实现应用落地,项目组在既定研究计划之上,进一步研究了结合深度神经网络及哈希学习的网络流量分类与识别技术,从而在应用流量识别区分基础上,实现流量优化调度。.基于上述成果,共发表重要学术论文27篇,其中CCF A类会议及期刊,中科院一区,JCR一区等高水平论文14篇;申请发明专利5项,其中3项已授权。项目代表性成果如下:.(1)针对大数据计算平台中数据分布式存放的特性,提出一种通用的分布式哈希计算框架。该框架可以将当前多种集中式哈希编码方法转为分布式执行。以可视媒体检索作为测试应用,在保证检索速度的同时检索精度可提升15%以上。.(2)针对大数据计算平台中缺乏全局化Coflow调度的问题,提出一种具有感知性的调度框架SmartCoflow。该框架实现了流量端点放置、流量调度及带宽分配的联合优化。从公有云上的仿真验证来看,与最具代表性的同类方法相比,Coflow平均完成时间减少了10%-20%。.(3)为实现计网协同框架中网络功能的灵活更新,构建了模块化网络功能编程系统Click-up。该系统实现了网络状态抽象、状态整合、状态更新等一系列操作,从而有效解决了MIT的网络原生编程系统Click,无法有效适应网络功能更新的问题。通过仿真验证,可以看出Click-up与Click相比,网元升级时的服务中断时间至少缩短76%。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
黄河流域水资源利用时空演变特征及驱动要素
面向云工作流安全的任务调度方法
城市轨道交通车站火灾情况下客流疏散能力评价
面向多模态网络可视媒体的稀疏表示研究
面向广域云服务的计算、数据和网络的协同调度研究
面向人机协同计算的高信度生物信息感知网络关键技术
面向网络事件的跨平台异质媒体语义协同与挖掘