The syntactic parsing is the core issue of natural language processing. It can support a lot of applications, such as information extraction, information retrieval, and machine translation. The dependency syntactic parsing, with its simple grammatical form, easy understaning, and facilitate applications, is paid gradually attention. Although the dependency parsing has made some progress recently, its accuracy is still unable to meet the needs of practical application. Although this project addresses this serious problem, we do not pay more attention to improve the accuracy of dependency parsing. We propose a novel task: sub-structure reliability of dependency parsing computation. According to compute the reliabilities of sub-structures, such as dependency arcs, parse paths, and sub-trees, we can only apply those sub-structures which have high reliabilities to particular practical applications and dependency parsing itself, and then improve performance of these applications and dependency parsing. The main research contents of this project are: building dependency reliability resources, modeling the reliability of dependency parsing and application of dependency parsing reliability. The project proposes a new problem (sub-strucutres of dependency parsing reliability computing) and leverages new methods (quasi-synchronous grammar, human-based computation).
句法分析是自然语言处理的核心问题,对信息抽取、信息检索、机器翻译等应用有重要的支撑作用。依存句法分析以形式简洁、易于理解、便于应用等优点为人们所重视。虽然目前依存句法分析算法研究取得了一定的进展,但是其准确率仍然不能满足实际应用的需要。为此,本项目并没有将研究重点放在直接提高依存句法分析的准确率这一难题上,而是提出了对依存句法分析结果,尤其是依存句法分析子结构的可信度进行计算这一新的研究任务。通过计算依存弧、依存路径、依存子树等依存句法分析子结构的可信度,并将可信度高的子结构应用于特定应用系统中以及依存句法分析自身,从而提高实际应用和依存句法分析的准确率。主要研究内容包括:依存句法分析的可信度资源构建、可信度计算的建模以及可信度计算的应用等。项目针对的问题(依存句法分析子结构可信度计算)和采用的方法(准同步文法、人本计算方法)均具有一定的创新性。
句法分析是自然语言处理的核心问题,对信息抽取、信息检索、机器翻译等应用有重要的支撑作用。依存句法分析以形式简洁、易于理解、便于应用等优点为人们所重视。虽然目前依存句法分析算法研究取得了一定的进展,但是其准确率仍然不能满足实际应用的需要。为此,本项在力争提高依存句法分析的准确率的同时,提出了对依存句法分析结果,尤其是依存句法分析子结构的可信度进行计算这一新的研究任务,从而提高实际应用和依存句法分析的准确率。具体研究内容包括:1、依存句法分析可信度计算;2、跨语言依存句法分析算法;3、语义依存图的表示和分析。取得了以下重要结果:1、提出了依存句法分析置信度估计的新问题,同时提出了在基于转移和基于图的依存句法分析模型上的依存弧置信度估计的方法,最终在多个应用上证明了依存句法分析置信度信息的有效性。2、提出了跨语言句法分析算法,有效利用多种语言的信息,提高了句法分析的性能。还将深度多任务学习框架应用于自然语言处理,有效利用了多语言或者多个自然语言处理任务的数据。3、提出了语义依存图这一新的语义表示方式,在标注了大量的相关数据后,组织了SemEval 2016国际评测,最近还提出了基于转移的深度语义依存图分析算法,有效提高了分析的精度。4、基于此算法,参加了CoNLL 2017国际评测,在113支参赛队伍中,取得了第四名的成绩。5、基于这些研究成果,研发打造了一整套高效、高精度的自然语言处理系统–语言技术平台(LTP),已成为中文自然语言处理领域影响力最大的开源基础技术平台。该平台集词法分析、句法分析和语义分析等多项自然语言处理技术于一体,有效解决了自然语言处理技术入行门槛高,准确率、效率偏低,缺少共享数据和程序资源,重复开发现象严重,结果可视化差,错误分析困难,较难真正支持各类应用研究等众多问题。目前,已有国内外600余家研究单位签署协议使用。同时,向百度、腾讯、华为等多家知名公司收费授权。还最早以“云计算”的方式对外提供中文自然语言处理服务,并将其命名为“语言云”,目前语言云累计注册的厂商及开发者超过1万名,日均处理请求70余万次。LTP于2016年获得了黑龙江省科技进步一等奖。
{{i.achievement_title}}
数据更新时间:2023-05-31
变可信度近似模型及其在复杂装备优化设计中的应用研究进展
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
计及焊层疲劳影响的风电变流器IGBT 模块热分析及改进热网络模型
金属锆织构的标准极图计算及分析
基于语义分析的评价对象-情感词对抽取
汉英双语依存句法分析模型和算法研究
知识驱动的汉语网络文本依存句法分析
汉语依存句法分析若干关键技术研究
基于大规模部分标注数据的依存句法分析