Many information processing tasks share a common problem that how to generate diverfied results. This problem has constantly been observed in many research tasks such as information retrieval, document summarization, automatic question answering, social recommender systems, information network mining, and so on. This proposal targets at two key issues of the problem: First, what is the representation unit of information diversity, and how to quantify diversity; Second, given an information need, how can we generate a diversified content that can maximally satisfy the average user. Our goal is to propose a method of representing and measuring diversity, and to established a unified framework to be able to generate information content (what we called information summary) that are diverse and relevant. In this framework, different granular information such as document, sentence, or aspect, is termed information unit. Information need, which may be represented by a set of keywords, a natural language question, or a task description, and information unit can be described via a subtopic space. The generated information summary will provide diversified, well-structured content that may consist of various units of different granularities including document, sentence, or aspect, and may have information of different modalities such as text, image, or video. To this end, we will study the representation and measurement methodology of information diversity, the discovery and extraction methods of information structure, the summarization algorithms that take diversity into account, and the selection algorithms of choosing suitable information granularity and modality of content, which is tailored to the information need.
如何保证信息的多样性是许多信息处理问题中的共性问题,广泛地存在于信息检索、文档摘要、自动问答、推荐系统、信息网络挖掘等任务中。本课题旨在解决信息多样性中的两个关键科学问题:(1)信息多样性的基本描述单位和度量方法,即什么样内容具有信息多样性以及多样性的程度如何;(2)给定信息需求,如何获得满足信息多样性要求的信息内容摘要,以最大程度地满足所有用户。我们的总体目标是提出描述信息多样性的表示与度量方法,建立统一计算框架使之产生满足多样性要求的信息内容。在这个框架中,不同粒度的信息被统称为"信息单元",用户需求和信息单元通过子话题空间来描述,信息摘要提供多样化的、结构良好的,多粒度和多模态的内容。为此,我们将研究信息多样性的表示和度量方法;研究信息摘要的组织结构及其抽取方法;建立适用于网络信息处理的考虑信息多样性的摘要算法和理论;研究如何根据信息需求的不同,选择信息摘要的不同表现粒度和不同模态。
如何保证信息的多样性是许多信息处理问题中的共性问题,广泛地存在于信息 检索、文档摘要、自动问答、推荐系统、信息网络挖掘等任务中。本项目从几个方面进行了探索:.1).信息多样性的表示和度量:提出了从子话题树结构的层面进行表示和度量的方法,并进一步基于话题树结构解决信息推荐中的稀疏性问题;.2).信息聚类:如何有效利用先验知识和社交数据中的自然标注进行自动聚类是一个信息摘要中的重要问题,提出了一种基于统计约束的词汇短语聚类方法,可以鲁棒地处理低频和高频的上下文信息;.3).信息摘要算法:提出了一种考虑短语属性的结构化摘要生成算法,提出了利用“流行度”和“专属度”这两个短语属性进行短语生成式摘要算法;.4).信息的表示和度量:从文档表示、句子表示、句子对表示、结构化知识表示等多个层面探索了如何进行对文本信息进行表示和度量,分别提出了跨领域的文档表示,考虑词性知识的句子表示,建模句子间依赖关系的句子对表示,考虑流型嵌入、关系多义性、子图结构等多种结构化知识表示模型。.发表CCF A类期刊论文1篇,CCF A类会议论文7篇(主要包括IJCAI、AAAI、ACL、SIGIR等),CCF B类会议论文8篇;申请专利5项,获得专利授权2项,实现专利技术转让2项。.培养博士生3名、硕士生2名。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响
工业萝卜泡菜发酵过程中理化特性及真菌群落多样性分析
青藏高原--现代生物多样性形成的演化枢纽
大规模异质信息网络摘要和摘要可解释性研究
中文信息检索及全文理解,摘要系统
面向信息传播理解的社会网络图摘要方法研究
关于信息偶遇的交互式设计和关键问题研究