Based on the multi-level analysis of lexicon, phrase and sentence, discourse analysis has become one of the key issues in natural language processing research in recent years. However, Chinese discourse analysis is still in its very early stage, significantly lagging behind that of English in both theory and methodology. This project aims to establish the computational theory for the analysis of logical structure and semantics of Chinese discourse by leveraging on the state-of-the-art and apply the research results to practical applications empirically. In particular, the project focuses on the following researches: .1) propose the theory and model for the analysis of Chinese discourse logical structure, topic structure, cohesion and coherence; 2) based on the proposed theory, develop the annotation scheme and build up a large scale of Chinese discourse-annotated corpus; 3) study and implement the core algorithms of Chinese discourse analysis; 4) apply the research results to machine translation and question answering. .We believe that the research achievements from this proposal have great scientific significance and application value to Chinese information processing and Chinese computational linguistics by advancing the state-of-the-art and filling up the research gaps of automatic analysis and application of Chinese discourse.
建立在词汇、短语和句子级分析基础上的语篇分析是目前自然语言处理研究的核心问题之一。与英语的篇章理论与方法研究相比,关于汉语篇章级分析的理论方法研究相对滞后,在自然语言处理领域才刚刚起步。本项目将充分借鉴国内外已有的理论方法,针对汉语自身的特点和规律,建立一套适用于汉语篇章结构描述和语义分析的、可计算的理论体系,并将其应用于具体系统。主要研究内容包括:①提出汉语篇章结构关系分析、话题分析和衔接性、连贯性描述的多层次语篇分析的理论方法和模型;②基于所提出的理论模型,建立汉语篇章的多层次标注规范,并构建大规模汉语篇章标注语料库;③研究实现篇章分析的核心算法;④将篇章分析技术应用于机器翻译和问答系统。本研究工作对于丰富和发展计算语言学和中文信息处理研究,推动相关技术的发展,具有重要的科学意义和应用价值。
本项目在深入分析汉语篇章结构特点的基础上,提出了多视角、多层次的汉语篇章分析方法,建立了一套实用的描述汉语篇章衔接性和连贯性的理论方法,研究制订了一套汉语篇章结构表示方法和标注规范,提出了分阶段的移进-规约篇章关系分析算法,有效提升了篇章关系分析的效率和准确率,实现了一套汉语篇章分析工具和实验平台。标注完成了一批用于汉语篇章理论研究和应用系统实现的篇章语料,已授权给数十家国内外研究机构和企业使用。项目执行期间,发表论文58篇,出版学术专著一部,申请发明专利8项,获得软件著作权登记9个,组织学术会议4个,培养了一批高水平的专门技术人才,获得国家科技进步奖二等奖等多个奖励和荣誉。完成了项目任务,达到了预期的目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于分形L系统的水稻根系建模方法研究
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
汉语语篇连贯的事件链模型研究
汉语语篇中连贯关系和隐含角色的分析标注研究
语篇中话题的韵律编码方式及其对语篇理解的影响:汉语和彝语对比研究
汉语语篇中语句焦点和焦点-重音投射