汉语篇章的组织结构同英语有重大差异。过去计算机处理汉语篇章的研究和应用主要采用源自英语的结构方式和特征体系,在理论和应用实践上都遇到很大障碍。本项目课题组的前期工作研究了汉语标点句间的句法关系,发现了汉语篇章具有一种以广义话题引领的结构。本项目将在此基础上,建立汉语篇章的广义话题结构的形式模型,挖掘它的约束条件,进而建立计算模型,使得汉语篇章处理的理论框架与汉语现实吻合,并能实施计算,使汉语篇章处理的应用取得实质性突破。
汉语篇章中一半左右的标点句句首缺成分,无法用以往的理论进行处理,对于应用造成重大影响。本项目针对这一问题进行理论体系研究,包括汉语广义话题结构的形式性质、约束条件、认知意义、计算模型、应用实验、语料库建设,以及这一模型在英语中的推广。.具体来说,通过引入标点句、广义话题和广义话题结构的概念,归纳出了广义话题结构的形式性质,包括形式结构的流水模型,以及全覆盖性、不可穿越性和成句性,在此基础上合理地界定了汉语的小句,并从广义话题结构规模无上界、话题伸展遵循事理语义路径、话题的深入和折返等角度探讨了这种小句的认知意义,提出了识别这种小句的认知模型和计算模型,进行了应用实验,并从广义话题结构的视角考察分析了不同语体的区别。在这个过程中建立了40多万字多语体的汉语篇章广义话题结构语料库,并已在网上公开发布。.进而,我们把话题-说明关系更明确地归为话语出发点和述谓语的关系,即naming和telling的关系,并界定了英语中naming-telling结构的NT小句。我们发现,英语中NT小句的组合模式与汉语中相同,只是不同小类模式的频率分布不同,由此证实了NT小句理论对于不同语言的共适性。在这一基础上,提出NT小句可以作为跨语言的语法平台,用以支持机器翻译等应用。在这一过程中建立了5000小句的英语NT小句语料库。.这些工作的实质是提出一种指称语为中心的小句组合的形式模型,它不同于传统的动词为中心的小句模型,具有认知的可解释性和语言的共适性,很适合于汉语的篇章结构描写,同时也适用于英语。这一模型为语言学研究开拓了新领域,为自然语言处理提供了新框架。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
汉语篇章连贯性分析:话题结构、逻辑语义结构及其联合学习研究
汉语篇章话题结构:形式化表示体系、语料库构建及其关键技术研究
汉语篇章理解的研究
面向篇章信息性的汉语篇章结构多层次联合分析研究