基于多维度文本特征的社区问答答案质量评估研究

基本信息
批准号:61305089
项目类别:青年科学基金项目
资助金额:24.00
负责人:苏祺
学科分类:
依托单位:北京大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:彭波,李芳,李寒冰,娄焕庆,黄劲松,袁野,王荀
关键词:
社区问答信息质量文本内容分析
结项摘要

With the development of Web2.0 technology, social media has been one of the mainstream applications on the Web. Since everybody can publish contents on social media platforms freely, the quality of those user-generated contents becomes a big concern. The task of identifying high-quality content, accordingly, has become a challenging research topic for natural language processing and text mining. In this project, we work on a typical social media application, i.e. community question answering (cQA). An effective strategy based on multi-dimensional textual features is proposed for the detection of cQA answers' quality. Different from the existing approach that predicting answer quality from the authority of users, which could be modeled by non-textual features, we propose to extract and utilize "multi-dimensional textual features". Accordingly, the main focuses of the project include: 1) how do we construct a reasonable multi-dimensional framework for the evaluation of answer quality; 2) how do we extract textual features which contribute to answer quality on each dimension, especially on the semantic categories of "trustworthiness"; 3) how do we score the quality of social media answers by ensembling the evaluation on each dimension; and 4) how do we combine the score of answer quality into a probability graph model, in which we try to improve the effect of cQA ranking. The research outcomes in this project can not only be used for the improvement of cQA applications, but also contribute to the development of text quality evaluation.

随着Web2.0的发展,社会化媒体成为互联网的主流应用之一。由于用户在社会化媒体中发布信息并不带有传统媒体那样严格的审查机制,就导致了信息的质量问题日益突出。识别社会化媒体中用户生成的高质量内容为自然语言处理、文本挖掘技术提出了严峻挑战。本项目以社会化媒体中的一个典型应用,即社区问答(cQA)为例,提出了一个基于多维度特征的文本质量评估框架。不同于以往研究中主要从以"非文本特征"建模的用户权威性入手来推测用户所提供的答案文本质量,本项目利用"多维度的文本内容特征"对社区问答中的答案质量进行评估。重点研究(1)多维度评估框架的构建;(2)不同维度上文本特征的抽取与排序学习,特别是"可信性"语义范畴的文本表示;(3)各维度评估因素的有效集成;以及(4)结合答案质量评估改进社区问答检索排序效果。以上研究成果一方面可以直接提高社区回答应用的实用效果;另一方面也能够对文本质量评估研究产生重要影响。

项目摘要

在Web自媒体时代,用户可以自由地在互联网上发布信息,其信息内容和发布方式都具有较强的随意性。因此,互联网上的信息质量问题日益突出。如何通过自动化手段识别出互联网上的高质量信息、标识出不可靠、虚假、欺骗性的信息,为自然语言处理应用提出了新的挑战。本项目以多种文本类型作为研究对象,包括社会化媒体中的社区问答、维基百科,以及自建的评论语料库,提出了基于多维度特征的文本质量评估框架。不同于以往研究中主要从以用户历史行为数据等"非文本特征"入手来预测文本质量,本项目利用"多维度的文本内容特征"对文本质量进行评估。研究的重点包括以下几个方面:(1)多维度评估框架的构建——主要探讨了在维基百科数据中文本质量在不同维度上的表征;(2)文本内容特征的抽取及其在不同机器学习算法中的有效应用——主要探讨了在以往表层文本特征和句法特征等的基础上,如何进一步挖掘语义层面的文本内容特征。为此引入了系统功能语言学中对于言据性语言成分的定义以及心理语言学上对于词义的分析框架,探讨了这些特征对于区分高质量文本的有效性。(3) 各维度评估因素的有效集成——主要探讨了如何利用集成学习的方法将不同视角下的文本质量评估维度有效整合。(4)真实/虚假评价数据的区分性特征识别——基于自建的语料库,对真实评价文本和虚假评价文本中的不同语言表述特征进行了挖掘。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

肉苁蓉种子质量评价及药材初加工研究

肉苁蓉种子质量评价及药材初加工研究

DOI:10.11842/wst.2017.02.019
发表时间:2017
2

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021
3

环境信息披露会影响分析师盈余预测吗?

环境信息披露会影响分析师盈余预测吗?

DOI:
发表时间:2017
4

国际比较视野下我国开放政府数据的现状、问题与对策

国际比较视野下我国开放政府数据的现状、问题与对策

DOI:
发表时间:2016
5

水文水力学模型及其在洪水风险分析中的应用

水文水力学模型及其在洪水风险分析中的应用

DOI:
发表时间:2019

苏祺的其他基金

相似国自然基金

1

基于协同计算的社区问答意见型问题分析与答案生成研究

批准号:61303180
批准年份:2013
负责人:周光有
学科分类:F0211
资助金额:28.00
项目类别:青年科学基金项目
2

面向问答社区的中文描述性答案融合框架及融合方法研究

批准号:61572151
批准年份:2015
负责人:刘秉权
学科分类:F0211
资助金额:64.00
项目类别:面上项目
3

基于在线百科和问答社区的中文文本蕴涵知识获取

批准号:61163039
批准年份:2011
负责人:张志昌
学科分类:F0211
资助金额:47.00
项目类别:地区科学基金项目
4

知识问答中自然答案生成关键技术研究

批准号:61702512
批准年份:2017
负责人:何世柱
学科分类:F0211
资助金额:27.00
项目类别:青年科学基金项目