Based on our recent work on data stream mining, we propose to explore and develop the next generation big data stream classification system, which can handle the concept drifting problem and reach GB/s processing speed. To overcome the concept drifting problem, the system will systematically explore the relationship between sampling and modeling processes. To reach GB/s processing speed, the system will explore knowledge mining algorithms on data streams; moreover, the sytem will use distributed computing techniques to higher the processing speed from MB/s to GB/s or even TB/s. The outcomes of the project will theoretically and technically support the next generate big data stream classification tasks, such as the GB/s back-bone network traffic monitoring, online advertising, and online social network mining.
本项目在青年基金数据流挖掘的研究基础上,研究面向下一代GB/s大数据流动态分类系统,重点突破大数据流模式动态连续变化、GB/s流量实时响应这两大挑战, 使得对下一代大数据流的处理性能从动态模型向动态系统转换, 从数据加工向知识加工转换,从单机处理向分布式集群处理发展,从MB/s处理速度向GB/s甚至TB/s的处理速度发展,为未来大数据流的实时分类提供理论基础和技术支撑,研究成果服务于未来大数据实时计算场景,包括骨干网络流量管理,在线广告投放、微博趋势分析等应用领域。
在基金支持下,项目组按照项目计划书中既定的研究任务开展了研究工作,完成了既定的研究目标。此外,还在实际工作中对原计划的研究内容进行了更深层次的拓展。过去四年中,发表论文23篇,其中SCI期刊5篇,CCF-A类论文12篇,获得第14届计算科学国际大会(ICCS-14)最佳论文奖,部分论文连续发表在数据挖掘人工智能领域主要期刊和会议TKDE、ICDM、AAAI和IJCAI上。授权专利3项。..在基金的支持下,课题负责人以网络多通道流量和社会媒体数据流为数据基础,以网络信息管理为主要研究任务,开展了面向下一代数据流分类系统的一系列研究工作,主要进展包括:1)提出针对微博短文本流的频繁项挖掘算法H-Stream,可以在GB/s高速网络流中完成实时热点词发现任务; 2)提出数据流集成模型的索引结构E-Tree和SVM-Index, 在100ms内完成对网络流上的多通道规则的快速判断;3)提出云平台高维数据流查询索引结构LCN-Index, 可以支持100ms内对GB/s级网络流上的过滤规则的快速判断;4)提出面向大规模网络分析的子图流处理框架,不仅提高了估计效率(约两个数量级),还突破了已有算法不能处理动态网络的局限性; 5)提出了面向时序文本数据流的动态演化模型,揭示了话题演化规律和外在影响因素的作用机理;6)提出了面向动态网络数据的影响范围上界分析方法,在保持精度不变的前提下,将执行效率提升4到8倍。以上研究成果也进一步应用在中科院战略先导专项和973等重大项目中。..在基金支持下,项目负责人在中科院信工所组织了一个10余人的研究团队,团队成员多次出访美国和澳大利亚院校,共同发表高水平学术论文。此外,项目负责人先后带队参加数据挖掘三大主流会议KDD, ICDM 和 SDM会议。此外,项目负责人连续3年为IEEE Trans. on Knowledge & Data Engineering (TKDE)等多个数据挖掘期刊(数据流计算方向)审稿。项目负责人在 Springer创办的国际期刊《Journal of Big Data》和《Annals of Data Science》担任编委(Editorial Board)。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
miR-590-3p靶向微管蛋白辅助因子A(TBCA)调控EMT介导的肾透明细胞癌恶性进展机制研究
多标记文本数据流分类方法研究
吸虫分类自动系统研究
数据流半监督分类中的半监督迁移学习研究
基于多任务学习的复杂概念漂移数据流分类研究