基于多语言微博文本的新疆热点事件检测关键技术研究

基本信息

批准号：61561047

项目类别：地区科学基金项目

资助金额：34.00

负责人：赵晖

学科分类：

依托单位：新疆大学

批准年份：2015

结题年份：2019

起止时间：2016-01-01 - 2019-12-31

项目状态：已结题

项目参与者：卡哈尔江•阿比的热西提,阿依古丽·哈力克,姑丽祖热·吐尔逊,杜楠楠,秦添,刘学杰,孟辉,邓叶勋,赵欢

关键词：

维吾尔族微博用户语言识别多语言文本社群发现热点事件检测

结项摘要

Microblog has become the most important platform of the network public opinion communication.People express their opinions and feelings to events and the information of various events is spread at a very fast speed on the microblog platform. Hot events can be detected and early warned based on microblog data.At present, the social stability and the lasting peace is the general goal of Xinjiang.Hot events detection and warning would contribute to monitoring the network public opinion of Xinjiang and maintaining social stability of Xinjiang.The project takes Uyghur users data of the ALKUYI microblog and the Sina microblog as research object. Based on collecting and analyzing the historical data of hot events in Xinjiang,we will define the hot event detection indicators,and purpose a forecasting model for the hot event detection and trend prediction .The main research content of the project includes Uyghur microblog users community discovery and mining, Uyghur users social network characteristic analysis,language identification of multilingual text,emotion analysis and topic detection,indicator selection of hot events and forecasting model for hot event detection and trend prediction.This research will enrich the theory and method of microblog text mining, community discovey and hot events detection and contribute to maintaining social stability of Xinjiang.

微博是网络舆论传播的中心，具有传播速度快、涉及事件广的特点，是人们对现实事件的观点和情感的即时反映，基于微博数据可以实现对热点事件的检测和及时预警。目前，社会稳定和长治久安是新疆工作的总目标，热点事件的检测和预警有助于新疆舆情的监控，对维护新疆社会稳定具有重要作用。本项目以ALKUYI微博和新浪微博维吾尔族用户数据为研究对象，在收集分析新疆地区热点事件历史数据的基础上，定义热点事件检测指标，建立预测模型实现热点事件检测及其趋势预测。主要研究内容包括：维吾尔族用户社群发现与团体挖掘，维吾尔族用户社会网络特征分析，多文种文本语言识别、情感分析与话题检测，以及热点事件指标的选择与预测模型的建立等。本项目的研究将丰富微博文本挖掘、社群发现、热点事件检测等研究领域的相关理论与方法，对于促进了解维吾尔族现代文化特点，维护新疆地区社会稳定都具有重要意义。

项目摘要

本项目构建了多语言微博语料库、新老维文双语平行语料，进行了音译维语微博的翻译、特征分析，并建立了新老维文与汉文的对照词典，使得基于丰富的汉文情感词典可以快速实现新老维文词汇的情感标注工作，并为多语言识别、话题提取、热点事件检测及情感分析提供了重要基础。在此基础上，本项目构建了识别汉语、老维语、音译维语和英语的langid与CNN融合的多语言识别系统，该系统建立了识别维语、汉语和英语的多语言langid模型，并结合卷积神经网络CNN模型，解决了音译维语和英语难以区分的问题。为实现多语言微博话题提取，本项目研究了基于支点驱动模型的多语言词向量的统一表示，并进一步研究了基于词向量与关键词提取的微博话题发现方法，以及基于LDA模型与LSTM+CNN融合的话题跟踪方法。本项目设计了新浪微博维吾尔族用户查找系统，在此基础上收集了多语言微博语料库，分析了用户群体的地区、年龄、发微博时间、活跃程度等特征，以及用户使用多种语言发微博的情况，分析表明：使用多语言的用户在群体中的互动情况明显高于使用单一语言用户，与其他用户的关系比较紧密。同时，我们对所爬取的数据从微博内容出发，以关键词为单位，对用户进行聚类计算，找到包含关键词相似的用户并归为一类，选取了十类群体的质心，找到与之最相近的若干词作为该群体的关键词代表，以此为基础研究了用户社群特征和网络结构特征。最后，本项目建立了热点事件微博提取系统，研究了热点事件微博观点检测与情感分析方法，提出了基于自适应注意力机制的微博观点倾向性分析方法、基于改进词向量的多语言热点事件观点检测方法，以及基于异构图神经网络的隐式情感分析方法，这些方法的提出丰富了微博热点事件意见挖掘、情感分析等关键技术的研究。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.3969/j.issn.1000-4440.2021.03.031

发表时间：2021

DOI：CNKI:SUN:YGXB.0.2018-01-012

发表时间：2018

赵晖的其他基金

批准号：11474218

批准年份：2014

资助金额：80.00

项目类别：面上项目

批准号：41272190

批准年份：2012

资助金额：85.00

项目类别：面上项目

批准号：30973782

批准年份：2009

资助金额：31.00

项目类别：面上项目

批准号：41072125

批准年份：2010

资助金额：50.00

项目类别：面上项目

批准号：81672852

批准年份：2016

资助金额：53.00

项目类别：面上项目

批准号：30960384

批准年份：2009

资助金额：24.00

项目类别：地区科学基金项目

批准号：81473745

批准年份：2014

资助金额：74.00

项目类别：面上项目

批准号：70901007

批准年份：2009

资助金额：18.50

项目类别：青年科学基金项目

批准号：40872108

批准年份：2008

资助金额：42.00

项目类别：面上项目

批准号：31300854

批准年份：2013

资助金额：20.00

项目类别：青年科学基金项目

批准号：81774381

批准年份：2017

资助金额：55.00

项目类别：面上项目

批准号：60962005

批准年份：2009

资助金额：15.00

项目类别：地区科学基金项目

批准号：81403324

批准年份：2014

资助金额：23.00

项目类别：青年科学基金项目

批准号：81201628

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

批准号：40401061

批准年份：2004

资助金额：28.00

项目类别：青年科学基金项目

批准号：10904112

批准年份：2009

资助金额：20.00

项目类别：青年科学基金项目

批准号：41771016

批准年份：2017

资助金额：71.00

项目类别：面上项目

批准号：61261037

批准年份：2012

资助金额：43.00

项目类别：地区科学基金项目

批准号：71371028

批准年份：2013

资助金额：56.00

项目类别：面上项目

相似国自然基金

微博热点事件的情感趋势分析与预测研究

批准号：61402134

批准年份：2014

负责人：徐冰

学科分类：F0211

资助金额：24.00

项目类别：青年科学基金项目

多语言环境下文本情感语义计算关键技术研究

批准号：61772036

批准年份：2017

负责人：万小军

学科分类：F0211

资助金额：62.00

项目类别：面上项目

面向微博平台的短文本话题检测与跟踪研究

批准号：61303115

批准年份：2013

负责人：李飞

学科分类：F0211

资助金额：23.00

项目类别：青年科学基金项目

社交网络中基于短文本的事件检测与分析理论及关键技术研究

批准号：61472337

批准年份：2014

负责人：李青

学科分类：F0205

资助金额：82.00

项目类别：面上项目

基于多语言微博文本的新疆热点事件检测关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

二维FM系统的同时故障检测与控制

黄曲霉毒素B1检测与脱毒方法最新研究进展

GF-4序列图像的云自动检测

赵晖的其他基金

有机材料中光电转换过程的动力学研究

乌兰布和沙漠晚更新世以来湖泊-沙漠演化过程（侧重释光年代测定与厘清）

益气活血中药联合丰富环境促进脑缺血后神经发生的作用及机制研究

乌兰布和沙漠全新世湖泊-沙漠演化及其释光年代学研究

肿瘤生存微环境中衰老成纤维细胞对结肠癌细胞转移分子调控机制研究

人精液凝固蛋白I小分子衍生肽功能的研究

从功能成像- Rho GTPases信号研究补阳还五汤迭加丰富环境刺激对神经干细胞定向迁移的调控

基于复杂网络理论的城市交通空间结构演化与道路选址方法研究

中国西北季风边缘区全新世干旱事件及其释光年代学

发展性计算障碍的脑功能连接网络特征

多模态影像整合细胞间通讯信息解析补阳还五汤迭加丰富环境刺激对神经机能联系不能的调控作用

基于面部活动单元的新疆维吾尔、哈萨克族表情识别研究

基于SEM全模型和类ROC曲线法对亚健康状态“单证”量化诊断的方法学研究

钙磷蛋白在肺癌骨转移中的功能及作用机制研究

阿拉善高原-黄土高原全新世重大干旱事件(侧重释光年代)研究

一维电声系统的动力学和相图研究

巴丹吉林沙漠西南缘山地洪水补给沙漠地下水的沉积学与年代学证据

具有表现力的维吾尔语可视语音合成技术研究

城市交通系统中停车换乘设施布局与运营优化研究

相似国自然基金