基于多语言微博文本的新疆热点事件检测关键技术研究

基本信息
批准号:61561047
项目类别:地区科学基金项目
资助金额:34.00
负责人:赵晖
学科分类:
依托单位:新疆大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:卡哈尔江•阿比的热西提,阿依古丽·哈力克,姑丽祖热·吐尔逊,杜楠楠,秦添,刘学杰,孟辉,邓叶勋,赵欢
关键词:
维吾尔族微博用户语言识别多语言文本社群发现热点事件检测
结项摘要

Microblog has become the most important platform of the network public opinion communication.People express their opinions and feelings to events and the information of various events is spread at a very fast speed on the microblog platform. Hot events can be detected and early warned based on microblog data.At present, the social stability and the lasting peace is the general goal of Xinjiang.Hot events detection and warning would contribute to monitoring the network public opinion of Xinjiang and maintaining social stability of Xinjiang.The project takes Uyghur users data of the ALKUYI microblog and the Sina microblog as research object. Based on collecting and analyzing the historical data of hot events in Xinjiang,we will define the hot event detection indicators,and purpose a forecasting model for the hot event detection and trend prediction .The main research content of the project includes Uyghur microblog users community discovery and mining, Uyghur users social network characteristic analysis,language identification of multilingual text,emotion analysis and topic detection,indicator selection of hot events and forecasting model for hot event detection and trend prediction.This research will enrich the theory and method of microblog text mining, community discovey and hot events detection and contribute to maintaining social stability of Xinjiang.

微博是网络舆论传播的中心,具有传播速度快、涉及事件广的特点,是人们对现实事件的观点和情感的即时反映,基于微博数据可以实现对热点事件的检测和及时预警。目前,社会稳定和长治久安是新疆工作的总目标,热点事件的检测和预警有助于新疆舆情的监控,对维护新疆社会稳定具有重要作用。本项目以ALKUYI微博和新浪微博维吾尔族用户数据为研究对象,在收集分析新疆地区热点事件历史数据的基础上,定义热点事件检测指标,建立预测模型实现热点事件检测及其趋势预测。主要研究内容包括:维吾尔族用户社群发现与团体挖掘,维吾尔族用户社会网络特征分析,多文种文本语言识别、情感分析与话题检测,以及热点事件指标的选择与预测模型的建立等。本项目的研究将丰富微博文本挖掘、社群发现、热点事件检测等研究领域的相关理论与方法,对于促进了解维吾尔族现代文化特点,维护新疆地区社会稳定都具有重要意义。

项目摘要

本项目构建了多语言微博语料库、新老维文双语平行语料,进行了音译维语微博的翻译、特征分析,并建立了新老维文与汉文的对照词典,使得基于丰富的汉文情感词典可以快速实现新老维文词汇的情感标注工作,并为多语言识别、话题提取、热点事件检测及情感分析提供了重要基础。在此基础上,本项目构建了识别汉语、老维语、音译维语和英语的langid与CNN融合的多语言识别系统,该系统建立了识别维语、汉语和英语的多语言langid模型,并结合卷积神经网络CNN模型,解决了音译维语和英语难以区分的问题。为实现多语言微博话题提取,本项目研究了基于支点驱动模型的多语言词向量的统一表示,并进一步研究了基于词向量与关键词提取的微博话题发现方法,以及基于LDA模型与LSTM+CNN融合的话题跟踪方法。本项目设计了新浪微博维吾尔族用户查找系统,在此基础上收集了多语言微博语料库,分析了用户群体的地区、年龄、发微博时间、活跃程度等特征,以及用户使用多种语言发微博的情况,分析表明:使用多语言的用户在群体中的互动情况明显高于使用单一语言用户,与其他用户的关系比较紧密。同时,我们对所爬取的数据从微博内容出发,以关键词为单位,对用户进行聚类计算,找到包含关键词相似的用户并归为一类,选取了十类群体的质心,找到与之最相近的若干词作为该群体的关键词代表,以此为基础研究了用户社群特征和网络结构特征。最后,本项目建立了热点事件微博提取系统,研究了热点事件微博观点检测与情感分析方法,提出了基于自适应注意力机制的微博观点倾向性分析方法、基于改进词向量的多语言热点事件观点检测方法,以及基于异构图神经网络的隐式情感分析方法,这些方法的提出丰富了微博热点事件意见挖掘、情感分析等关键技术的研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
3

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021

赵晖的其他基金

批准号:11474218
批准年份:2014
资助金额:80.00
项目类别:面上项目
批准号:41272190
批准年份:2012
资助金额:85.00
项目类别:面上项目
批准号:30973782
批准年份:2009
资助金额:31.00
项目类别:面上项目
批准号:41072125
批准年份:2010
资助金额:50.00
项目类别:面上项目
批准号:81672852
批准年份:2016
资助金额:53.00
项目类别:面上项目
批准号:30960384
批准年份:2009
资助金额:24.00
项目类别:地区科学基金项目
批准号:81473745
批准年份:2014
资助金额:74.00
项目类别:面上项目
批准号:70901007
批准年份:2009
资助金额:18.50
项目类别:青年科学基金项目
批准号:40872108
批准年份:2008
资助金额:42.00
项目类别:面上项目
批准号:31300854
批准年份:2013
资助金额:20.00
项目类别:青年科学基金项目
批准号:81774381
批准年份:2017
资助金额:55.00
项目类别:面上项目
批准号:60962005
批准年份:2009
资助金额:15.00
项目类别:地区科学基金项目
批准号:81403324
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:81201628
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:40401061
批准年份:2004
资助金额:28.00
项目类别:青年科学基金项目
批准号:10904112
批准年份:2009
资助金额:20.00
项目类别:青年科学基金项目
批准号:41771016
批准年份:2017
资助金额:71.00
项目类别:面上项目
批准号:61261037
批准年份:2012
资助金额:43.00
项目类别:地区科学基金项目
批准号:71371028
批准年份:2013
资助金额:56.00
项目类别:面上项目

相似国自然基金

1

微博热点事件的情感趋势分析与预测研究

批准号:61402134
批准年份:2014
负责人:徐冰
学科分类:F0211
资助金额:24.00
项目类别:青年科学基金项目
2

多语言环境下文本情感语义计算关键技术研究

批准号:61772036
批准年份:2017
负责人:万小军
学科分类:F0211
资助金额:62.00
项目类别:面上项目
3

面向微博平台的短文本话题检测与跟踪研究

批准号:61303115
批准年份:2013
负责人:李飞
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目
4

社交网络中基于短文本的事件检测与分析理论及关键技术研究

批准号:61472337
批准年份:2014
负责人:李青
学科分类:F0205
资助金额:82.00
项目类别:面上项目