The automatic division of sentence group is a new important research topic in natural language processing domain which can be applied widely in machine translation, discourse understanding and information retrieval fields. Because the existing division methods of Chinese sentence group have not taken full advantage of the context information of a sentence and the associated information between sentences, one automatic division method of Chinese sentence group based on Markov tree and disourse represetenttion theory (DRT) is proposed in this project by making use of the characteristic of DRT which can describe dynamically natural language sense. Discourse representation theory (DRT) is a formal semantic theory. In this project, four main points will be researched.(1) The analysis on structure characteristics of Chinese sentence groups; (2) The Markov tree representation of a Chinese paragraph and the automatic division algorithm of Chinese sentence group; (3) The construction method of discourse representation structure (DRS) in DRT; (4) The semantic explain model in DRT. There are two key research points in this project: (1) Construct a Markov tree model to represent a Chinese paragraph, and perform automatic division of Chinese sentence groups by using dynamic programming algorithm; (2) Propose an improved DRS and semantic explain model to revise the division results of Chinese sentence groups. The research work in this project can provide significantly theory and technique supports for Chinese sentence group division, explore a universal transform method from syntax structure representation to semantic formal representation in natural language processing, and compensate the deficiency of discourse's semantic respresentation.
句群自动划分是自然语言处理中的重要课题,在机器翻译、篇章理解、信息检索等领域有广泛应用前景。针对现有汉语句群划分方法未充分利用句子上下文信息及句间关联信息的不足,本项目利用篇章表述理论(DRT)能动态地描述自然语言意义的特性,提出一种基于马尔科夫树和DRT理论的汉语句群自动划分方法。主要研究内容包括:(1)汉语句群构成特点分析;(2)汉语段落的马尔科夫树表示和句群自动划分算法;(3)DRT理论中篇章表述结构(DRS)构造算法;(4)DRT理论的语义解释模型。本项目研究的难点和核心问题在于构建马尔科夫树对汉语段落进行层次表示并利用动态规划算法实现句群自动划分,以及提出改进的DRS和语义解释模型对句群划分结果进行修正。本项目研究对于丰富汉语句群划分理论与方法,具有重要的建设性意义,同时为自然语言处理中从句法结构表示向语义形式表示转化提供了一种普适的方法,弥补了目前在语篇语义表征方法方面的不足。
句群自动划分是自然语言处理中的重要课题,在机器翻译、篇章理解、信息检索等领域有广泛应用前景。针对现有汉语句群划分方法未充分利用句子上下文信息及句间关联信息的不足,围绕着项目的研究目标,本项目从汉语句群构成特点分析、汉语段落的马尔科夫树表示和句群自动划分算法、DRT 理论中篇章表述结构(DRS)构造算法和DRT 理论的语义解释模型等方面开展研究,成果体现在如下几个方面:首先,在汉语句群特点分析方面,侧重于对汉语句子的语义组块进行分析,主要以汉语的宾州树库作为语料资源,使用机器学习的方法建立统计语言模型,改进了组块分析相关任务的语义角色标注。其次,在汉语段落的马尔科夫树表示和句群自动划分方面,分析了汉语句群构成特点,针对目前句群划分工作缺乏计算语言学数据支持、忽略篇章衔接词的问题以及当前篇章分析较少研究句群语法单位的现象,以汉语句群理论为指导,提出一种基于多元判别分析( MDA) 方法的汉语句群自动划分方法。再次,在句群语料收集方面,构建了汉语句群划分标注评测语料,弥补目前该领域缺乏公共评测语料的问题。最后,在对句群划分结果进行评价和修正方面,通过评价函数J得到段落的最优句群划分结果后,采用了Pμ评价方法和WindowDiff 评价方法对句群划分结果正确性进行评价。总之,作为一项自然语言语篇理解方面的探索性研究工作,课题组在篇章句群识别和划分这一方向做了深入研究,并逐步将句群研究应用到自然语言处理的其它热点方向,如自动摘要、句子结构分析等。项目组共发表7篇期刊论文,其中SCI收录期刊1篇,EI收录1篇,培养硕士生7名。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
基于马尔科夫随机场的滑坡编目自动绘制方法研究
基于隐马尔科夫模型的三维人体解剖点自动标识研究
期权定价与马尔科夫过程
马尔科夫场