Microblog has emerged as the center for event creation, disclosure,discussion,spreading and evolution. It is regarded that Microblog is the dominant yet best data source for mining event-related information and knowledge. Due to the highly dynamic nature of Microblog data and evolutionary events, people demand real-time, in-depth and personalized information. In this project, we focus on real-time search, storyline summarization and recommendation in Microblogs to depict the eolution of events. To address the challenges arised by large-scale Microblog-alike brief text streams, the goal of this project is to propose a parallel platform for hybrid batch/streaming data processing, models to present information in Microblogs, and a series of efficient mining algorithms. The contributions of this project can be benefit for the development of data management theory and technology in the big data era.
微博的迅猛发展使其成为各类事件策划、披露、讨论、传播与发展中心,也使其自然成为事件相关信息挖掘和知识发现的最佳和最主要数据来源。由于微博数据和事件本身的高动态性,对微博挖掘的信息需求是实时的、纵深化的和个性化的。本项目着眼于面向事件的微博文本的实时事件检索、事件脉络实时摘要以及事件摘要结果上的实时推荐,力求解决微博和类微博的短文本社交媒体数据流对数据处理、信息表示和算法设计提出的挑战,结合微博数据的文本特点、社会网络结构特点和事件演化规律,设计并实现无缝融合批处理/流处理的分布式大规模数据流处理平台,适用于社交短文本的信息表示模型,和一系列高效的实时深度挖掘算法;以期满足来自大量社交媒体应用对于事件实时和纵深信息的广泛需求,并推动大数据背景下数据管理理论与技术研究。
本项目主要研究了面向社交文本流数据的分布式大规模数据处理技术,适用于社交短文本的信息表示模型,和一系列高效的实时深度挖掘算法;并应用在事件摘要、推荐、及其他垂直领域的检测和可视化应用中。本项目的研究成果对处理非随机缺失数据、大规模数据的相似度计算,非参数聚类、多源复杂数据融合等问题具有理论意义。在社交大数据的背景下,本项目的研究成果在舆情监控、新闻推送、知识管理等方面具有广阔的应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
黄河流域水资源利用时空演变特征及驱动要素
基于多模态信息特征融合的犯罪预测算法研究
城市轨道交通车站火灾情况下客流疏散能力评价
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
服务经济时代新动能将由技术和服务共同驱动
面向微博数据流的事件主线挖掘技术研究
面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究
面向事件时间感知的微博检索研究
面向远场并发声学事件的深度实时分离研究