面向查询的社会化短文本自动摘要研究

基本信息
批准号:61363039
项目类别:地区科学基金项目
资助金额:47.00
负责人:刘德喜
学科分类:
依托单位:江西财经大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:刘喜平,聂建云,钟敏娟,骆斯文,焦贤沛,江腾蛟,韦亚雄,刘挺,吴双
关键词:
自动摘要多重增强图社会化短文本社会化短文本主题模型面向查询
结项摘要

Social networks such as Twitter and Weibo have become an important channel for individuals and organizations to publish, disseminate, or access information. It is an urgent issue to extract and summarize information efficiently and effectively from the query-related short text collection, which typically has multiple topics, complex relationships, and fragmental and massive contents. In consideration of the typical features of the socialized short texts come from a social network, in this project, we will explore the theories and technologies of query-oriented socialized short text summarization, with the goal of returning satisfactory and multi-style summaries to users. This project focuses on the topic model, user model and text representation model of socialized short text, and the strategies of scoring, extracting, and reordering candidate summary contents. The main contributions of this project are as follows: ① it proposes an extended Latent Dirichlet Allocation topic model, LDA for Socialized Short text (SS-LDA), that takes both contents and social relationships in short text collection into consideration; ② it presents a text representation model, multiple reinforcement graph for socialized short text (SS-MRG), that describes the typical features for summarization such as social relationships, user queries, user interests and so on;③ it develops a scoring strategy for candidate summary contents, 4S-QIDU, that integrates social relationships, user queries, user interests, the information user has been read, and the diversity requirement of a summary. The models, strategies and methods proposed in this project will not only enrich the summarization theories and short text processing technologies, but also promote the development of social network by providing more efficient and effective services, which have both extensive applied value and potential commercial value.

社会网络平台成为现代社会个体及组织进行信息发布、传播与获取的重要途径,如何对查询相关的、主题多样、内容碎化、关系复杂、数量巨大的短文本进行浓缩,是从中高效获取信息所迫切需要解决的问题。本项目充分考虑社会网络平台中短文本的复杂"社会关系"等特点,研究面向查询的社会化短文本自动摘要理论与技术,包括社会化短文本主题模型和用户模型、文本表示模型、摘要内容评分策略、摘要抽取及重排策略等,以提供尽可能满足用户查询意图且表现形式多样的摘要。本项目主要创新拟表现在:综合考虑短文本内容和社会关系的扩展LDA主题模型;充分刻画社会关系、查询需求、用户兴趣等多种因素的多重增强图表示模型;基于多重增强图,集成社会关系、查询、用户兴趣与背景信息及多样性要求的候选摘要内容评分策略等。开展本研究不仅能丰富文本自动摘要理论和短文本处理技术,而且能通过提高服务效率和质量推动社会网络平台发展,具有广泛应用价值和潜在商业价值。

项目摘要

社会网络平台成为现代社会个体及组织发布、传播与获取信息的重要途径。为了从社会化短文本中高效地获取用户需要的信息,需要对用户查询和短文本内容进行多角度的分析处理。.社会化短文本主题多样、内容碎化、关系复杂、富含情感,根据这些特点,本项目主要研究了:①社会化短文本情感分析;②语义分析与主题模型;③社会化短文本检索与摘要模型;④查询处理与反馈;⑤社会化短文本作者心理健康分析等内容。.取得的主要研究成果有:①提出了基于分类的cNSEm模型,从社会化短文本中自动抽取新情感词,分析了六类特征的作用,cNSEm能适应名词类型的情感词抽取,抽取的新情感词对短文本情感分类的帮助作用优于手工情感词典,获COAE 2014新情感词抽取任务第二名;②针对商品评论类文本,设计了语义角色标注与依存句法分析相结合的评价对象-情感词对抽取规则,能有效识别出缺省和隐含的评价对象;③构建了基于词聚类先验知识的LDA主题模型WC-LDA和基于语义关联约束的LDA主题模型SRC-LDA,解决了LDA无法凸显短文本中中低频率词的问题, 改善了LDA 对主题词的语义理解和识别能力;④提出了基于句法语义特征的中文实体关系抽取方法,较好地解决了数据分布不均衡带来的关系抽取问题;⑤将机器学习方法与规则相结合,提出了基于协陪义动词的中文隐式实体关系抽取方法,借助显式实体关系对隐式实体关系进行推理;⑥针对社会化短文本的半结构化特点,提出了基于主题概括能力的半结构化文本中结点权重自动设置模型,用以区分不同位置出现查询词时对检索或摘要的不同影响;⑦提出了基于多重增强图和主题分析的社会化短文本检索模型,利用文本间的社会关系及主题分析,克服文本短对检索和摘要的影响;⑧提出了基于隐马尔可夫模型的查询关键词语义分析方法,解决了半结构化文本上查询词约束(语义)不明确的问题;⑨定义了两种新的top-k查询语义及提出了基于动态规划的高效查询处理算法,使得搜索空间尽可能小;⑩分析了利用准私密社交网络文本数据检测用户心理健康的可行性,并提出基于多特征融合的在线论坛用户心理健康自动评估模型,在ACL CLPsych2017 评测上获第一名;构建了包含1万余条短文本心理危机原因标注数据集和45个微博用户自杀原因标注数据集。.项目成果丰富了文本挖掘理论和社会媒体处理技术,具有广泛应用价值,其中利用社会化短文本分析用户心理健康具有重要社会意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

刘德喜的其他基金

批准号:60803105
批准年份:2008
资助金额:19.00
项目类别:青年科学基金项目
批准号:61762042
批准年份:2017
资助金额:38.00
项目类别:地区科学基金项目

相似国自然基金

1

面向查询的XML文本自动文摘研究

批准号:60803105
批准年份:2008
负责人:刘德喜
学科分类:F0211
资助金额:19.00
项目类别:青年科学基金项目
2

面向大规模汉语新闻语料的实体抽取与自动摘要研究

批准号:U1936109
批准年份:2019
负责人:黄德根
学科分类:F0210
资助金额:70.00
项目类别:联合基金项目
3

基于反馈式排序框架F-Rank的查询导向的更新式多文档自动摘要研究

批准号:61070083
批准年份:2010
负责人:彭敏
学科分类:F0211
资助金额:29.00
项目类别:面上项目
4

面向查询的多文档自动文摘技术研究

批准号:60773167
批准年份:2007
负责人:何婷婷
学科分类:F0211
资助金额:26.00
项目类别:面上项目