Microblog has become the most important platform of the network public opinion communication.People express their opinions and feelings to events and the information of various events is spread at a very fast speed on the microblog platform. Hot events can be detected and early warned based on microblog data.At present, the social stability and the lasting peace is the general goal of Xinjiang.Hot events detection and warning would contribute to monitoring the network public opinion of Xinjiang and maintaining social stability of Xinjiang.The project takes Uyghur users data of the ALKUYI microblog and the Sina microblog as research object. Based on collecting and analyzing the historical data of hot events in Xinjiang,we will define the hot event detection indicators,and purpose a forecasting model for the hot event detection and trend prediction .The main research content of the project includes Uyghur microblog users community discovery and mining, Uyghur users social network characteristic analysis,language identification of multilingual text,emotion analysis and topic detection,indicator selection of hot events and forecasting model for hot event detection and trend prediction.This research will enrich the theory and method of microblog text mining, community discovey and hot events detection and contribute to maintaining social stability of Xinjiang.
微博是网络舆论传播的中心,具有传播速度快、涉及事件广的特点,是人们对现实事件的观点和情感的即时反映,基于微博数据可以实现对热点事件的检测和及时预警。目前,社会稳定和长治久安是新疆工作的总目标,热点事件的检测和预警有助于新疆舆情的监控,对维护新疆社会稳定具有重要作用。本项目以ALKUYI微博和新浪微博维吾尔族用户数据为研究对象,在收集分析新疆地区热点事件历史数据的基础上,定义热点事件检测指标,建立预测模型实现热点事件检测及其趋势预测。主要研究内容包括:维吾尔族用户社群发现与团体挖掘,维吾尔族用户社会网络特征分析,多文种文本语言识别、情感分析与话题检测,以及热点事件指标的选择与预测模型的建立等。本项目的研究将丰富微博文本挖掘、社群发现、热点事件检测等研究领域的相关理论与方法,对于促进了解维吾尔族现代文化特点,维护新疆地区社会稳定都具有重要意义。
本项目构建了多语言微博语料库、新老维文双语平行语料,进行了音译维语微博的翻译、特征分析,并建立了新老维文与汉文的对照词典,使得基于丰富的汉文情感词典可以快速实现新老维文词汇的情感标注工作,并为多语言识别、话题提取、热点事件检测及情感分析提供了重要基础。在此基础上,本项目构建了识别汉语、老维语、音译维语和英语的langid与CNN融合的多语言识别系统,该系统建立了识别维语、汉语和英语的多语言langid模型,并结合卷积神经网络CNN模型,解决了音译维语和英语难以区分的问题。为实现多语言微博话题提取,本项目研究了基于支点驱动模型的多语言词向量的统一表示,并进一步研究了基于词向量与关键词提取的微博话题发现方法,以及基于LDA模型与LSTM+CNN融合的话题跟踪方法。本项目设计了新浪微博维吾尔族用户查找系统,在此基础上收集了多语言微博语料库,分析了用户群体的地区、年龄、发微博时间、活跃程度等特征,以及用户使用多种语言发微博的情况,分析表明:使用多语言的用户在群体中的互动情况明显高于使用单一语言用户,与其他用户的关系比较紧密。同时,我们对所爬取的数据从微博内容出发,以关键词为单位,对用户进行聚类计算,找到包含关键词相似的用户并归为一类,选取了十类群体的质心,找到与之最相近的若干词作为该群体的关键词代表,以此为基础研究了用户社群特征和网络结构特征。最后,本项目建立了热点事件微博提取系统,研究了热点事件微博观点检测与情感分析方法,提出了基于自适应注意力机制的微博观点倾向性分析方法、基于改进词向量的多语言热点事件观点检测方法,以及基于异构图神经网络的隐式情感分析方法,这些方法的提出丰富了微博热点事件意见挖掘、情感分析等关键技术的研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
拥堵路网交通流均衡分配模型
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于全模式全聚焦方法的裂纹超声成像定量检测
微博热点事件的情感趋势分析与预测研究
多语言环境下文本情感语义计算关键技术研究
面向微博平台的短文本话题检测与跟踪研究
社交网络中基于短文本的事件检测与分析理论及关键技术研究