词汇化句法分析若干关键技术研究

基本信息
批准号:61262035
项目类别:地区科学基金项目
资助金额:43.00
负责人:袁里驰
学科分类:
依托单位:江西财经大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:钟敏娟,刘喜平,吴京慧,骆斯文,焦贤沛,李鹏宇,曾华艺
关键词:
句法分析统计模型中心词驱动句法分析模型自然语言处理配价结构语义依存关系
结项摘要

The study of lexicalized syntactic parsing has achieved certain progress, but its precision and efficiency yet do not satisfy the need of practical applications, especially there are still many key technologies about Chinese lexicalized syntactic parsing to be solved. In recent years, there has arised a study tendency to merge varied technologies in the field of syntactic parsing, and how to integrate varied existing syntactic parsing technologies and complement each other will be an important trend in the field of syntactic parsing. So this project will study how to merge varied syntactic parsing technologies, and propose new theories and calculation models about syntax and semantics on the base of Head-Driven syntactic parsing models combined with dependency grammars and valence grammars: (1) Propose a new word clustering model and algorithm, build syntactic parsing models based on semantic category and solve the data sparseness problem; (2) Introduce semantic information for statistical syntactic parsing models, the semantic information include semantic dependency and semantic collocation such as valence structure; (3) Part-of-speech tagging plays a vital role in syntactic parsing, the syntactic parsing models proposed in this project will combine part-of-speech tagging with syntactic parsing. The goals of this project are to bring semantic information into full play in syntactic parsing, solve the key problems existing in syntactic parsing and semantic calculation, and significantly improve the performance of syntactic parsing.

虽然目前词汇化句法分析研究取得了一定的进展,但是其准确率和效率仍然不能满足实际应用的需要,特别是汉语词汇化句法分析,还有许多关键技术有待解决。近年来,句法分析领域出现了将多种技术进行融合的研究趋势,如何整合多项现有的技术,取长补短,将是句法分析领域的一个重要研究方向。因此本课题将对多项技术的融合问题展开研究,在中心词驱动句法分析模型的基础上结合依存语法、配价语法,提出新的句法语义理论和计算模型:(1)提出一种新的词聚类模型和算法,建立基于语义类的句法分析模型,解决数据稀疏问题;(2)在句法分析统计模型中引入语义信息, 既包括语义依存信息,也包括配价结构等语义搭配信息;(3)词性标注在句法分析中起到了至关重要的作用, 本课题提出的句法分析模型将结合词性标注进行句法分析。目标是充分发挥语义信息在句法分析中的作用,解决句法分析和语义计算中存在的关键问题,较大幅度提高句法分析的性能。

项目摘要

虽然目前词汇化句法分析研究取得了一定的进展,但是其准确率和效率仍然不能满足实际应用的需要,特别是汉语词汇化句法分析,还有许多关键技术有待解决。近年来,句法分析领域出现了将多种技术进行融合的研究趋势,如何整合多项现有的技术,取长补短,将是句法分析领域的一个重要研究方向。因此本课题对多项技术的融合问题展开了研究,在中心词驱动句法分析模型的基础上结合依存语法、配价语法,提出了一些新的句法语义理论和计算模型:. 1.数据稀疏问题是一个严重影响句法分析系统性能的重要因素, 而基于词类的句法分析统计模型是解决这一问题的主要方法之一。本课题利用相邻词语的互信息定义了一种词相似度,并在语义结构信息标注的基础上提出了一种基于语义搭配关系的词语义相似度定义。在词相似度的基础上定义了词集合的相似度,进而提出了一种能得到全局最优结果,自下而上的词聚类算法。实验结果表明,该词聚类算法执行效率高、聚类效果较好: 常规贪婪聚类方法如布朗词聚类算法的困惑度为278,而基于词相似度的词聚类算法和基于语义相似度的词聚类算法的困惑度分别为213,209.3。. 2.针对隐马尔可夫(HMM)词性标注模型状态输出独立同分布等与语言实际特性不够协调的假设,对隐马尔可夫模型进行改进,引入了马尔可夫族模型。马尔可夫族模型用条件独立性假设取代了HMM模型的独立性假设,相对条件独立性假设,独立性假设是过强假设,因而基于马尔可夫族模型的语言模型更符合语言等实际物理过程。将马尔可夫族模型成功应用于词性标注,并结合句法分析进行词性标注。用改进的隐马尔可夫模型进行词性标注实验,实验结果表明: 在相同的测试条件下, 马尔可夫族模型明显好于隐马尔可夫模型,词性标注准确率从94.642%提高到97.126%。. 3. 目前主流的词汇化句法分析方法仅仅考虑词语之间的语义依存关系, 而没有引入语义搭配和语义类等语义信息。本课题结合中心词驱动句法分析模型,提出了基于配价结构和语义依存关系的句法分析模型。模型在规则的分解及概率计算中引入丰富的语义信息,既包括语义依存信息,也包括配价结构等语义搭配信息。用改进的句法分析模型进行句法分析实验,实验结果表明,精确率和召回率分别为88.76%和87.43%,综合指标F值比Collins的中心词驱动句法分析模型提高了6.65个百分点。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
5

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020

袁里驰的其他基金

批准号:61562034
批准年份:2015
资助金额:38.00
项目类别:地区科学基金项目

相似国自然基金

1

汉语依存句法分析若干关键技术研究

批准号:60803093
批准年份:2008
负责人:车万翔
学科分类:F0211
资助金额:19.00
项目类别:青年科学基金项目
2

基于统计的维吾尔语依存句法分析若干关键技术研究

批准号:61262061
批准年份:2012
负责人:麦热哈巴·艾力
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目
3

渐进式中文句法分析的关键技术研究

批准号:61100089
批准年份:2011
负责人:王会珍
学科分类:F0211
资助金额:24.00
项目类别:青年科学基金项目
4

现代哈萨克语句法分析与树库构建关键技术研究

批准号:61363062
批准年份:2013
负责人:古丽拉·阿东别克
学科分类:F0211
资助金额:46.00
项目类别:地区科学基金项目