论证体篇章“结构与语义”协同分析模型及算法研究

基本信息
批准号:61240036
项目类别:专项基金项目
资助金额:12.00
负责人:钟茂生
学科分类:
依托单位:华东交通大学
批准年份:2012
结题年份:2013
起止时间:2013-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:周娟,王鹏鸣,周洁,王琪,徐紫云,廖辉传,桑迪欢,刘建林,江健健
关键词:
协同分析篇章理解篇章语义篇章结构
结项摘要

With the deepening of research on the natural language word,sentence-level processing, the problem of the discourse-level structure and semantics automatic analysis have drawn increasing academic's attention.The existing discourse-structure analysis method does not take full use of the semantic information of discourse, and many researches rarely use the discourse structure information for acquiring the discourse semantic knowledge. The independently and lack of collaboration way to analyze discourse structure and to access discourse semantic is an important reason of making the accuracy of discourse structure and semantic analysis not ideal.Based on the original interdependence and influence relations between discourse structure and semantic,using Chinese argumentation body discourse as research object, using the linguistics theory as a basis, and from the system point of view the article as an "information system" and the logical argument characteristics within argument discourse, the collaborative analysis method between discourse structure and discourse semantic would be studied in the project by learning from the synergy thinking of collaborative theory. The project will explore a mutual cooperation and stepwise refinement model and algorithm for analyzing the structure and semantic of Chinese argument discourse, which is hopeful for radically improving the accuracy of discourse structur analysis and discourse semantic access, and thus laying the research foundation for improving the accuracy of automatic summarization and text copy detection algorithm, and for better achieving these tasks,such as discourse understanding, discourse generation, assisted language learning and so on.

随着自然语言词语、句子级处理研究的不断深入,篇章级结构和语义自动分析问题, 越来越引起学术界的关注。现有的篇章结构分析没有充分利用篇章语义信息作为驱动,而篇章语义知识的获取也很少利用篇章结构信息作为支持,这种各自独立而缺乏协作的结构分析和语义获取方式,是使得篇章结构和语义分析精度都不理想的一个重要原因。本课题根据篇章结构和语义之间原本存在的相互依存、相互影响关系,以汉语论证体篇章为研究对象,以篇章语言学理论为基础,从文章作为"信息系统"的系统观点和论证体篇章具有的逻辑论证特点出发,借鉴协同理论中的协同作用思想,来进行论证体篇章的结构与语义协同分析。课题探索汉语篇章结构与语义之间相互协作、逐步求精的分析模型与算法,将有望根本上提高篇章结构分析和篇章语义分析的精度,由此为改进文献自动摘要和文献复制检测算法的效果、更好地实现汉语篇章语义理解、篇章话语生成和辅助语言学习等研究奠定基础。

项目摘要

篇章结构和语义自动分析,就是用计算机来分析文章内部的各个组成部分和文章的组织结构模式,以及获取篇章内部不同级别语言单位的所指语义。准确的篇章结构和篇章语义自动分析结果,可以有效地实现篇章自动理解,也能够改进文本自动摘要和论文复制检测算法的精度,并对文本快速浏览和过滤、文献讲义自动生成、计算机辅助语言学习、话语生成等任务的实现起着重要的作用。早期自然语言理解研究中,由于语言本身的非结构化和模糊性特点,加上篇章又是语言处理和理解中结构颗粒最大的对象,因此篇章的结构和语义自动分析研究非常困难,也研究得较少。.课题组在国家自然科学基金科学部主任基金“论证体篇章‘结构与语义’协同分析模型及算法研究”(61240036)项目的支持下,对“论证体篇章结构的形式抽象表示方法和篇章级语义的知识表示方法”和“论证体篇章的组织结构与语义结构之间协同分析的模型与算法”两方面进行重点研究,获得了如下研究成果:(1)用正则表达式形式对论证体篇章结构进行了形式化的描述、修改和扩充,给出了篇章组织结构、篇章语义结构和篇章逻辑论证结构的形式抽象表示方法和三者之间的转换框架;(2)提出了基于生物序列比对算法和基于Naïve Bayes模型的文本篇章结构分析方法,分析论证体篇章的组织结构模式;(3)针对中文文本篇章术语自动抽取方法中低频术语和术语的术语性(termhood)指标缺乏有效处理问题,引入C-value方法,提出了词语领域分布度与有效词频的概念,实现篇章文本内部的术语抽取任务;(4)针对篇章文本中问句的相似度计算准确率较低问题,提出了一种基于主题和焦点的中文问句相似度计算方法,实现问句的相似度计算;(5)针对传统的基于词频统计的文本语义相似度计算不准确问题,提出了一种基于“实体-属性-属性值”(E-A-V)结构相似度的概念图匹配算法,实现对篇章的语义分析;(6)设计了基于篇章组织结构、篇章语义结构和篇章逻辑论证结构的篇章结构与篇章语义的协同分析算法。在项目基金的支持下,已发表论文3篇(其中EI期刊论文1篇,CSSCI期刊论文1篇,核心期刊论文1篇),已录用论文2篇(均为核心期刊),已投搞论文2篇,待投稿论文1篇;以该课题研究内容为背景,正在培养12级研究生两名;建设和标注了一个约500篇文本(约300万字)的篇章分析语料库;参加国内会议7人次。通过课题组成员的努力,已完成项目预期目标。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

钟茂生的其他基金

相似国自然基金

1

篇章级中文语义分析理论与方法

批准号:61133012
批准年份:2011
负责人:刘挺
学科分类:F0211
资助金额:270.00
项目类别:重点项目
2

汉语篇章结构分析的资源建设与计算模型研究

批准号:61273320
批准年份:2012
负责人:周国栋
学科分类:F03
资助金额:81.00
项目类别:面上项目
3

汉语篇章连贯性分析:话题结构、逻辑语义结构及其联合学习研究

批准号:61472264
批准年份:2014
负责人:孔芳
学科分类:F0211
资助金额:81.00
项目类别:面上项目
4

篇章结构分析及基于双语投射的篇章标注方法研究

批准号:61202244
批准年份:2012
负责人:鉴萍
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目