As a social network, the microblogging service engages users in various communicative activities. According to the speech act theory from linguistics, we propose a microblog content-oriented research project based on the communicative patterns manifested by microblogging users. The project is aimed to explore three main techniques. First, since speech acts are not directly retrievable from the microblog data, we are dedicated to the automatic recognition of speech acts, a classification task that is hampered by the high noisiness of the microblog text as well as the deficiency of annotated data. Therefore, we extract special features to accommodate the noisy text and propose a semi-supervised approach to accommodate limited training data. Second, we are concerned with speech act-based information extraction, which does not rely on de-noising, and automatic summarization of microblogs, which leverages template-based generation techniques. Third, we model user influence relations by building a speech act-based network. The speech act change of any individual user is dependent on the speech acts in his ambience, from which we derive a probabilistic model that can be used to detect influential user groups. Those are promising and significant research aspects, both theoretically and practically. The results of our pilot study for some core techniques demonstrate the practicality and feasibility of our proposed project.
微博是人们行使各种交际活动的社会网络。本项目根据语言学的"言语行为"理论,提出以言语行为为线索,探索微博用户的交际模式和交际规律,并以此为基础进行相应的话题内容抽取提炼和用户影响关系研究。项目主要涉及三方面的技术。首先,由于言语行为不能从微博数据中直接获取,本项目致力于内容导向的微博用户言语行为识别。针对微博文本的高噪音度和人工标注语料的匮乏,我们提出适合微博特点的特征提取方式和依赖少量人工标注语料的半监督学习方法。其次,本项目致力于基于群体言语行为的信息提取和微博上的自动摘要,开发不依赖除噪过程的关键词提取和基于模板的概括式摘要技术。再次,本项目致力于基于个体言语行为的用户关系网络的建模,根据个人用户言语行为的变化和与周围用户言语行为的关联建立概率模型,从而识别有影响力的用户群体。这些研究内容具有理论和实践上的重要意义。针对某些关键技术的前期研究结果表明,本项目是切实可行的。
该项目旨在以微博内容挖掘为核心,探索社交媒体不同类型用户的语言表达方式、信息交流行为和社会交际规律,并以此为依据进行微博智能信息处理(包括信息检索、信息抽取、信息摘要、情感分析等)和信息传播机制分析(包括用户影响力及影响方式分析、观点识别及预测等),为基于内容的社交媒体研究开辟一条新的途径。研究工作进展顺利,目标顺利达成,并且在人工智能热潮的带动之下有效延伸,并为更前沿、更具应用价值的未来研究项目申请做好铺垫和基础准备工作。..项目实施期间,我们分别基于社交媒体特性进行如下主要研究工作,包括:基于微博内容的用户言语行为分类模型构建和基于用户言语行为分析的摘要生成研究;基于社交媒体数据动态特性的时序摘要模型研究和基于社交媒体数据实时特性的实时信息推荐和摘要策略开发;基于言论内容和观点倾向的用户交流行为研究和社交影响力分析、具有影响力的专家识别、社交影响在推荐领域的应用;针对微博短文的有效潜在语意表达方式研究;社交平台言论观点的情感分析和预测建模、信息和信息源的可信度分析及评价研究;人工智能和深度神经网络模型在社交媒体内容和行为分析中的应用探讨,等等。..至今为止,该项目共培养博士毕业生两名,在读博士生五名,博士后一名,副研究一名,助理研究员三名。各位学生和研究人员认真投入,积极合作,迅速掌握国内外学术动态和领先技术,并探索可能的创新之处,经过努力收获令人满意的可喜成果,达到预期之人才培养目的。项目取得的研究进展和科研成果亦十分令人满意。至今,项目组成员共发表十篇期刊论文和十七篇会议论文,其中,六篇论文发表于富有极高声誉的IEEE和ACM会刊,两篇发表在自然语言处理的顶级期刊《计算语言学》,十四篇会议论文发表在自然语言处理、人工智能、信息检索的顶级会议(包括ACL、EMNLP,AAAI、IJCAI、SIGIR)。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于分形L系统的水稻根系建模方法研究
跨社交网络用户对齐技术综述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
黄河流域水资源利用时空演变特征及驱动要素
社交网络互动中用户“信息窄化”机理分析:基于微博的数据挖掘
基于随机博弈网的微博用户行为及信息传播分析
基于大规模主题建模和用户行为分析的微博检索方法研究
基于用户建模的个性化微博排序研究