基于用户言语行为的微博内容挖掘研究

基本信息
批准号:61272291
项目类别:面上项目
资助金额:80.00
负责人:李文捷
学科分类:
依托单位:香港理工大学深圳研究院
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:张耀允,张韧贤,高德宏
关键词:
用户影响力分析和建模言语行为识别社会网络微博挖掘基于信息抽取的自动文摘
结项摘要

As a social network, the microblogging service engages users in various communicative activities. According to the speech act theory from linguistics, we propose a microblog content-oriented research project based on the communicative patterns manifested by microblogging users. The project is aimed to explore three main techniques. First, since speech acts are not directly retrievable from the microblog data, we are dedicated to the automatic recognition of speech acts, a classification task that is hampered by the high noisiness of the microblog text as well as the deficiency of annotated data. Therefore, we extract special features to accommodate the noisy text and propose a semi-supervised approach to accommodate limited training data. Second, we are concerned with speech act-based information extraction, which does not rely on de-noising, and automatic summarization of microblogs, which leverages template-based generation techniques. Third, we model user influence relations by building a speech act-based network. The speech act change of any individual user is dependent on the speech acts in his ambience, from which we derive a probabilistic model that can be used to detect influential user groups. Those are promising and significant research aspects, both theoretically and practically. The results of our pilot study for some core techniques demonstrate the practicality and feasibility of our proposed project.

微博是人们行使各种交际活动的社会网络。本项目根据语言学的"言语行为"理论,提出以言语行为为线索,探索微博用户的交际模式和交际规律,并以此为基础进行相应的话题内容抽取提炼和用户影响关系研究。项目主要涉及三方面的技术。首先,由于言语行为不能从微博数据中直接获取,本项目致力于内容导向的微博用户言语行为识别。针对微博文本的高噪音度和人工标注语料的匮乏,我们提出适合微博特点的特征提取方式和依赖少量人工标注语料的半监督学习方法。其次,本项目致力于基于群体言语行为的信息提取和微博上的自动摘要,开发不依赖除噪过程的关键词提取和基于模板的概括式摘要技术。再次,本项目致力于基于个体言语行为的用户关系网络的建模,根据个人用户言语行为的变化和与周围用户言语行为的关联建立概率模型,从而识别有影响力的用户群体。这些研究内容具有理论和实践上的重要意义。针对某些关键技术的前期研究结果表明,本项目是切实可行的。

项目摘要

该项目旨在以微博内容挖掘为核心,探索社交媒体不同类型用户的语言表达方式、信息交流行为和社会交际规律,并以此为依据进行微博智能信息处理(包括信息检索、信息抽取、信息摘要、情感分析等)和信息传播机制分析(包括用户影响力及影响方式分析、观点识别及预测等),为基于内容的社交媒体研究开辟一条新的途径。研究工作进展顺利,目标顺利达成,并且在人工智能热潮的带动之下有效延伸,并为更前沿、更具应用价值的未来研究项目申请做好铺垫和基础准备工作。..项目实施期间,我们分别基于社交媒体特性进行如下主要研究工作,包括:基于微博内容的用户言语行为分类模型构建和基于用户言语行为分析的摘要生成研究;基于社交媒体数据动态特性的时序摘要模型研究和基于社交媒体数据实时特性的实时信息推荐和摘要策略开发;基于言论内容和观点倾向的用户交流行为研究和社交影响力分析、具有影响力的专家识别、社交影响在推荐领域的应用;针对微博短文的有效潜在语意表达方式研究;社交平台言论观点的情感分析和预测建模、信息和信息源的可信度分析及评价研究;人工智能和深度神经网络模型在社交媒体内容和行为分析中的应用探讨,等等。..至今为止,该项目共培养博士毕业生两名,在读博士生五名,博士后一名,副研究一名,助理研究员三名。各位学生和研究人员认真投入,积极合作,迅速掌握国内外学术动态和领先技术,并探索可能的创新之处,经过努力收获令人满意的可喜成果,达到预期之人才培养目的。项目取得的研究进展和科研成果亦十分令人满意。至今,项目组成员共发表十篇期刊论文和十七篇会议论文,其中,六篇论文发表于富有极高声誉的IEEE和ACM会刊,两篇发表在自然语言处理的顶级期刊《计算语言学》,十四篇会议论文发表在自然语言处理、人工智能、信息检索的顶级会议(包括ACL、EMNLP,AAAI、IJCAI、SIGIR)。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
3

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020

李文捷的其他基金

批准号:61672445
批准年份:2016
资助金额:64.00
项目类别:面上项目

相似国自然基金

1

社交网络互动中用户“信息窄化”机理分析:基于微博的数据挖掘

批准号:71804126
批准年份:2018
负责人:徐翔
学科分类:G0414
资助金额:17.50
项目类别:青年科学基金项目
2

基于随机博弈网的微博用户行为及信息传播分析

批准号:61303244
批准年份:2013
负责人:李静远
学科分类:F0206
资助金额:25.00
项目类别:青年科学基金项目
3

基于大规模主题建模和用户行为分析的微博检索方法研究

批准号:61572223
批准年份:2015
负责人:涂新辉
学科分类:F0211
资助金额:63.00
项目类别:面上项目
4

基于用户建模的个性化微博排序研究

批准号:61402242
批准年份:2014
负责人:陈晨
学科分类:F0211
资助金额:26.00
项目类别:青年科学基金项目