汉语语篇中连贯关系和隐含角色的分析标注研究

基本信息
批准号:61373075
项目类别:面上项目
资助金额:78.00
负责人:周强
学科分类:
依托单位:清华大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:夏云庆,赵强,范淼,唐国瑜,王俊俊,邱晗
关键词:
隐含角色连贯关系事件关系图语篇结构分析语段连贯性
结项摘要

The parataxis characteristics of Chinese text bring in new challenge for the research and development of the computation model for Chinese text coherence. The project will propose a new approach for it through the combination of two different kinds of text coherence information. One is the relation-based coherence provided by coherence relation recognition technique. The other is the entity-based coherence provided by zero anaphora analysis technique. An event relation graph (ERG) will be designed as the annotation structures of Chinese text to contain these two kinds of coherence information. A discourse span (DS) will be defined as the basic description unit for Chinese paragraph to cover several clauses with complete internal coherence annotations. So the research goal of the project will become as the selection of the suitable ERG for a DS. To achieve the research goal, we want to make the following research exploration in the project: (1) To design suitable annotation tag sets for different kinds of relation-based and entity-based coherence in Chinese discourse spans and build an efficient annotation scheme for them to cover complex discourse description phenomena in Chinese real world paragraphs; (2) To develop easily-used ERG annotation platform and study effective ERG annotation method to build a large-scale Chinese DS coherence annotation corpus with 1000 articles of Chinese balanced texts; (3) To explore automatic analysis techniques for coherence relation recognition, zero anaphora analysis, and DS boundary determination; (4) To design three shared-tasks to evaluate the above automatic discourse structure analysis techniques. The DS coherence annotated corpus will be used as the gold-standard benchmarks for these evaluation tasks. The research achievements of the project will push the evolution of Chinese information processing research from sentence parsing to discourse structure analysis. Meanwhile, the proposed method can be easily extended to other anaphoric phenomena in Chinese texts, including pronoun anaphora, noun phrase anaphora and associative anaphora. So the research scope of the method will be expanded.

汉语语篇的意合型结构,对语篇连贯性计算理解提出了新的挑战。本项目将语篇结构的连贯关系分析和隐含角色回指识别两种技术有机结合起来,把它们落实到内部信息相对自足的语段描述单位上,通过设计有效的汉语语段连贯性描述体系,选择合适的连贯关系和隐含角色回指标记集,将这两种基于关系和基于实体的不同连贯性判定信息整合在基于事件关系图的分析标注结构中,为缺乏显式标记的汉语语篇结构探索出了一条可操作、可计算的局部语篇片段连贯性分析计算途径。在此基础上,研究汉语真实篇章的语段连贯性分析标注方法,开发方便灵活的人机互助标注平台,构建大规模的汉语语段连贯性标注库,探索汉语语段连贯关系分析、隐含角色回指确定和边界识别等核心技术并组织相应的国际评测。其预期研究成果可以方便地推广到汉语语篇的其他指代回指现象,从而大大拓展该项技术在汉语语篇连贯性分析计算中的应用范围,推动中文信息处理技术从句子分析向语篇分析的进化和发展。

项目摘要

汉语语篇的意合型结构,对语篇连贯性计算理解提出了新的挑战。本项目针对不同层次的汉语独白和对话语篇的连贯性描述特点,提出了不同的解决方案。针对现有开放式关系集对语篇段落连贯内容的弱限制性问题,引入句群分析单元,通过句群主旨句提炼和功能类别分析实现对句群整体内容的完整把握; 针对汉语复句中各个相邻小句间普遍存在的核心角色承前和蒙后省略现象,引入话题链分析机制,有效识别复杂句子中通过不同话题链连接形成的事件前后景描述形式; 针对会话过程中相邻话语消息之间的潜在内容连贯性,引入不同话语消息的核心功能描述子类和话题线索分析机制,加强对话行为依存对和连贯修辞对的结构描述,有效组织会话中的话题变化趋势。. 以此为基础,总结完成了3个汉语语篇连贯性标注规范,构建了包含317个新闻学术类语篇、总规模40万词左右的汉语句群主旨标注库,包含2万多句子、总规模50万词以上的汉语复杂句子话题链标注库,包含500个日常会话片段、10000条话语消息的对话行为标注库。探索了语篇标注难度预测方法和基于主题模型的句群边界自动切分方法,研究了小句间零形指代话题链和典型承接/并列关系的自动识别方法,初步证明了深度学习模型在语篇句子连贯性计算方面的应用效果。另外,深入研究了弱标记、噪音和稀疏的大规模数据环境下的固定实体关系挖掘问题,提出了许多新的计算模型。以上研究工作,为进一步进行独白语篇句群主旨提炼和对话语篇意图预测研究打下了很好的基础。.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

周强的其他基金

批准号:60573185
批准年份:2005
资助金额:22.00
项目类别:面上项目
批准号:10976011
批准年份:2009
资助金额:40.00
项目类别:联合基金项目
批准号:51375482
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:61178065
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:31772159
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:60876026
批准年份:2008
资助金额:28.00
项目类别:面上项目
批准号:60873173
批准年份:2008
资助金额:30.00
项目类别:面上项目
批准号:61176035
批准年份:2011
资助金额:70.00
项目类别:面上项目
批准号:51608249
批准年份:2016
资助金额:21.00
项目类别:青年科学基金项目
批准号:41261010
批准年份:2012
资助金额:50.00
项目类别:地区科学基金项目
批准号:50775214
批准年份:2007
资助金额:30.00
项目类别:面上项目
批准号:31860117
批准年份:2018
资助金额:40.00
项目类别:地区科学基金项目
批准号:30000114
批准年份:2000
资助金额:16.00
项目类别:青年科学基金项目
批准号:11274137
批准年份:2012
资助金额:93.00
项目类别:面上项目
批准号:10304005
批准年份:2003
资助金额:31.00
项目类别:青年科学基金项目
批准号:81027005
批准年份:2010
资助金额:160.00
项目类别:专项基金项目
批准号:81772378
批准年份:2017
资助金额:55.00
项目类别:面上项目
批准号:61775025
批准年份:2017
资助金额:62.00
项目类别:面上项目
批准号:81272029
批准年份:2012
资助金额:68.00
项目类别:面上项目
批准号:60173008
批准年份:2001
资助金额:18.00
项目类别:面上项目
批准号:61405030
批准年份:2014
资助金额:27.00
项目类别:青年科学基金项目
批准号:11172316
批准年份:2011
资助金额:63.00
项目类别:面上项目
批准号:51662039
批准年份:2016
资助金额:38.90
项目类别:地区科学基金项目
批准号:31300337
批准年份:2013
资助金额:21.00
项目类别:青年科学基金项目
批准号:69903007
批准年份:1999
资助金额:12.00
项目类别:青年科学基金项目
批准号:81270240
批准年份:2012
资助金额:70.00
项目类别:面上项目
批准号:91634114
批准年份:2016
资助金额:67.00
项目类别:重大研究计划
批准号:51906115
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:51708462
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:11602190
批准年份:2016
资助金额:22.00
项目类别:青年科学基金项目
批准号:31272038
批准年份:2012
资助金额:75.00
项目类别:面上项目
批准号:31071680
批准年份:2010
资助金额:31.00
项目类别:面上项目
批准号:21907067
批准年份:2019
资助金额:23.00
项目类别:青年科学基金项目
批准号:30771458
批准年份:2007
资助金额:30.00
项目类别:面上项目
批准号:11402026
批准年份:2014
资助金额:26.00
项目类别:青年科学基金项目
批准号:11574112
批准年份:2015
资助金额:73.00
项目类别:面上项目
批准号:81573057
批准年份:2015
资助金额:50.00
项目类别:面上项目
批准号:81802830
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:81072454
批准年份:2010
资助金额:31.00
项目类别:面上项目
批准号:11301441
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目
批准号:59775034
批准年份:1997
资助金额:12.00
项目类别:面上项目

相似国自然基金

1

汉语语篇连贯的事件链模型研究

批准号:61373108
批准年份:2013
负责人:姬东鸿
学科分类:F0211
资助金额:78.00
项目类别:面上项目
2

汉语语篇中语句焦点和焦点-重音投射

批准号:60775026
批准年份:2007
负责人:杨玉芳
学科分类:F0605
资助金额:34.00
项目类别:面上项目
3

语篇中话题的韵律编码方式及其对语篇理解的影响:汉语和彝语对比研究

批准号:60905062
批准年份:2009
负责人:王蓓
学科分类:F0609
资助金额:17.00
项目类别:青年科学基金项目
4

汉语多层次语篇分析理论方法研究与应用

批准号:61333018
批准年份:2013
负责人:宗成庆
学科分类:F0305
资助金额:300.00
项目类别:重点项目