信息多样性和信息摘要的关键问题研究

基本信息

批准号：61272227

项目类别：面上项目

资助金额：82.00

负责人：黄民烈

学科分类：

依托单位：清华大学

批准年份：2012

结题年份：2016

起止时间：2013-01-01 - 2016-12-31

项目状态：已结题

项目参与者：房磊,胡珀,朱星玮,赵立,陶浩雄,尼古拉,李潭澈,郝宇

关键词：

信息多样性信息检索自然语言处理子话题信息摘要

结项摘要

Many information processing tasks share a common problem that how to generate diverfied results. This problem has constantly been observed in many research tasks such as information retrieval, document summarization, automatic question answering, social recommender systems, information network mining, and so on. This proposal targets at two key issues of the problem: First, what is the representation unit of information diversity, and how to quantify diversity; Second, given an information need, how can we generate a diversified content that can maximally satisfy the average user. Our goal is to propose a method of representing and measuring diversity, and to established a unified framework to be able to generate information content (what we called information summary) that are diverse and relevant. In this framework, different granular information such as document, sentence, or aspect, is termed information unit. Information need, which may be represented by a set of keywords, a natural language question, or a task description, and information unit can be described via a subtopic space. The generated information summary will provide diversified, well-structured content that may consist of various units of different granularities including document, sentence, or aspect, and may have information of different modalities such as text, image, or video. To this end, we will study the representation and measurement methodology of information diversity, the discovery and extraction methods of information structure, the summarization algorithms that take diversity into account, and the selection algorithms of choosing suitable information granularity and modality of content, which is tailored to the information need.

如何保证信息的多样性是许多信息处理问题中的共性问题，广泛地存在于信息检索、文档摘要、自动问答、推荐系统、信息网络挖掘等任务中。本课题旨在解决信息多样性中的两个关键科学问题：（1）信息多样性的基本描述单位和度量方法，即什么样内容具有信息多样性以及多样性的程度如何；（2）给定信息需求，如何获得满足信息多样性要求的信息内容摘要，以最大程度地满足所有用户。我们的总体目标是提出描述信息多样性的表示与度量方法，建立统一计算框架使之产生满足多样性要求的信息内容。在这个框架中，不同粒度的信息被统称为"信息单元"，用户需求和信息单元通过子话题空间来描述，信息摘要提供多样化的、结构良好的，多粒度和多模态的内容。为此，我们将研究信息多样性的表示和度量方法；研究信息摘要的组织结构及其抽取方法；建立适用于网络信息处理的考虑信息多样性的摘要算法和理论；研究如何根据信息需求的不同，选择信息摘要的不同表现粒度和不同模态。

项目摘要

如何保证信息的多样性是许多信息处理问题中的共性问题，广泛地存在于信息检索、文档摘要、自动问答、推荐系统、信息网络挖掘等任务中。本项目从几个方面进行了探索：.1）.信息多样性的表示和度量：提出了从子话题树结构的层面进行表示和度量的方法，并进一步基于话题树结构解决信息推荐中的稀疏性问题；.2）.信息聚类：如何有效利用先验知识和社交数据中的自然标注进行自动聚类是一个信息摘要中的重要问题，提出了一种基于统计约束的词汇短语聚类方法，可以鲁棒地处理低频和高频的上下文信息；.3）.信息摘要算法：提出了一种考虑短语属性的结构化摘要生成算法，提出了利用“流行度”和“专属度”这两个短语属性进行短语生成式摘要算法；.4）.信息的表示和度量：从文档表示、句子表示、句子对表示、结构化知识表示等多个层面探索了如何进行对文本信息进行表示和度量，分别提出了跨领域的文档表示，考虑词性知识的句子表示，建模句子间依赖关系的句子对表示，考虑流型嵌入、关系多义性、子图结构等多种结构化知识表示模型。.发表CCF A类期刊论文1篇，CCF A类会议论文7篇（主要包括IJCAI、AAAI、ACL、SIGIR等），CCF B类会议论文8篇；申请专利5项，获得专利授权2项，实现专利技术转让2项。.培养博士生3名、硕士生2名。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：

发表时间：2017

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.11897/SP.J.1016.2018.00886

发表时间：2018

黄民烈的其他基金

批准号：61876096

批准年份：2018

资助金额：65.00

项目类别：面上项目

批准号：60803075

批准年份：2008

资助金额：21.00

项目类别：青年科学基金项目

相似国自然基金

大规模异质信息网络摘要和摘要可解释性研究

批准号：61872161

批准年份：2018

负责人：王英

学科分类：F0214

资助金额：63.00

项目类别：面上项目

中文信息检索及全文理解,摘要系统

批准号：69473023

批准年份：1994

负责人：吴立德

学科分类：F0211

资助金额：7.00

项目类别：面上项目

面向信息传播理解的社会网络图摘要方法研究

批准号：61902385

批准年份：2019

负责人：曲强

学科分类：F0202

资助金额：29.00

项目类别：青年科学基金项目

关于信息偶遇的交互式设计和关键问题研究

批准号：71401085

批准年份：2014

负责人：孙煦

学科分类：G0112

资助金额：21.00

项目类别：青年科学基金项目

信息多样性和信息摘要的关键问题研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

信息熵-保真度联合度量函数的单幅图像去雾方法

基于SSR 的西南地区野生菰资源遗传多样性及遗传结构分析

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

WMTL-代数中的蕴涵滤子及其应用

黄民烈的其他基金

开放领域人机对话技术研究

基于图结构的文献挖掘算法研究

相似国自然基金

信息多样性和信息摘要的关键问题研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

信息熵-保真度联合度量函数的单幅图像去雾方法

基于SSR 的西南地区野生菰资源 遗传多样性及遗传结构分析

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

WMTL-代数中的蕴涵滤子及其应用

黄民烈的其他基金

开放领域人机对话技术研究

基于图结构的文献挖掘算法研究

相似国自然基金

基于SSR 的西南地区野生菰资源遗传多样性及遗传结构分析