融合文本内容与结构信息的话题分析方法研究

基本信息
批准号:61472088
项目类别:面上项目
资助金额:83.00
负责人:黄萱菁
学科分类:
依托单位:复旦大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:龚群虎,张奇,周雅倩,郭晓云,沈亚田,钱进,赵嘉亿,康积华,杨天堡
关键词:
话题检测与跟踪自然语言处理语义分析
结项摘要

In recent years, social media has grown and flourished in China. It publishes and disseminates various types of information, and then provides hot topics of discussion by the people in their daily lives. It has a wide influence on public opinion, and brings significant impacts to traditional news media and human society. On the other hand, the traditional topic analysis research mainly aims at news reports, thus cannot fully integrate the major characteristics of social media, including information content, social network and user behavior. Therefore, the research on topic analysis integrating text content and structure information is of both important academic value and practical significance, which can contribute to the maintenance of social stability and national information security. This project focuses on the research of topic analysis on social media. We will carry on the research of topic representation and modeling, topic detection and tracking, as well as topic structure and semantic analysis. We will study: 1) the topic models to integrate structural and semantic information which consider the important factors of information content, social network and user behavior; 2) the topic detection and tracking methods based on Nonparametric Bayes approaches, the association mining approaches between the social media and the traditional media, and the algorithms to analyze and predict topic propagation; and 3) the topic structure and semantic analysis methods based on structural machine learning, and topic-oriented keyword extraction algorithms based on topic models.?We intend to publish more than 15 papers in international conferences or journals recommended by China Computer Federation (CCF) during the research.

近年来社会媒体在我国取得了蓬勃发展,所发布和传播的信息提供了人们在日常生活中争相讨论的热门话题,对社会舆论产生了广泛的影响力。由于传统的话题分析研究主要以新闻报道作为处理对象,无法充分结合社会媒体所具有的信息内容、社交网络和用户行为等重要特性。因此,本项课题研究具有重要的学术和应用价值。我们拟针对社会媒体,从话题表示与建模、话题发现与跟踪、话题结构和语义分析等方面开展融合文本内容和结构的话题分析方法研究,具体内容包括:1)综合考虑社会媒体的重要特性,建立融合结构和语义的话题表示模型;2)研究基于非参数贝叶斯方法的话题检测与跟踪算法、社会媒体和新闻媒体的关联挖掘方法、话题传播分析与预测算法;3)根据所构建的话题表示模型,研究基于结构化机器学习的话题结构和语义框架分析算法,以及基于主题模型的话题关键词抽取算法。通过本项课题研究,我们拟在CCF推荐的国际学术会议或期刊发表论文15篇以上。

项目摘要

近年来社会媒体在我国取得了蓬勃发展,所发布和传播的信息提供了人们在日常生活中争相讨论的热门话题,对社会舆论产生了广泛的影响力。本项课题研究针对社会媒体,从话题表示与建模、话题发现与跟踪、话题结构和语义分析等方面开展融合文本内容和结构的话题分析方法研究,具体内容包括:1)综合考虑社会媒体的重要特性,建立融合结构和语义的话题表示模型;2)研究基于非参数贝叶斯方法和深度学习方法的话题检测与跟踪算法、话题传播分析与预测算法;3)根据所构建的话题表示模型,研究基于深度学习的话题结构和语义框架分析算法,以及基于主题模型和深度学习的话题关键词抽取算法。.经过四年多的研究,课题组取得了诸多研究成果,圆满完成了课题实施目标。在数据方面,我们从新浪微博和Twitter两个典型的社会媒体应用入手,分别构建了中英文语料库,其中中文语料库包含200万核心用户,英文语料库包含100万核心用户,同时,我们也下载了这些用户所发表的超过20亿条微博内容。我们所构造的语料库已通过中国中文信息学会社会媒体处理专委会向国内超过100家科研机构免费进行了分享。.在算法方面,我们提出了融合结构和语义的话题表示模型,以及有关社会媒体话题检测与跟踪、话题结构和语义分析的一系列算法和方法,在中国计算机学会(CCF)推荐的国际学术会议或期刊发表论文 41篇,含CCF推荐A类会议或期刊23篇,B类会议或期刊17篇;申报和授权发明专利 2 项。.在人才培养方面,我们打造了多学科交叉融合的学术团队,培养了博士研究生4名,硕士研究生21名。其中,项目负责人黄萱菁被评为2015年度上海市教育系统巾帼建功标兵;课题组主要参与人员张奇获得2015年度ACM 上海新星提名奖、2016年度“钱伟长中文信息处理科学技术奖—汉王青年创新奖”;课题组主要参与人员邱锡鹏获得2018年度“钱伟长中文信息处理科学技术奖—汉王青年创新奖”。2018届博士生陈新驰获得了2018年度中国中文信息学会“优秀博士论文奖”。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

黄萱菁的其他基金

批准号:60103014
批准年份:2001
资助金额:28.00
项目类别:联合基金项目
批准号:60673038
批准年份:2006
资助金额:26.00
项目类别:面上项目
批准号:61073069
批准年份:2010
资助金额:30.00
项目类别:面上项目

相似国自然基金

1

基于网络异构文本数据融合的热点话题发现及其内容摘要研究

批准号:61273278
批准年份:2012
负责人:李素建
学科分类:F0606
资助金额:80.00
项目类别:面上项目
2

中文社交化短文本情感分析与话题挖掘研究

批准号:71501003
批准年份:2015
负责人:王德庆
学科分类:G0112
资助金额:17.40
项目类别:青年科学基金项目
3

网络文本内容安全智能关联分析与监测方法研究

批准号:70471064
批准年份:2004
负责人:赵燕平
学科分类:G0110
资助金额:16.00
项目类别:面上项目
4

在线网络社区话题内容与社区结构协同演化机理与验证方法研究

批准号:61170242
批准年份:2011
负责人:王巍
学科分类:F0205
资助金额:58.00
项目类别:面上项目