基于字依存的中文精细结构标注及其学习算法研究

基本信息
批准号:60903119
项目类别:青年科学基金项目
资助金额:18.00
负责人:赵海
学科分类:
依托单位:上海交通大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:钱培德,黄鑫,李艳翠,黄李伟,倪吉,陈九昌
关键词:
半监督学习非监督学习依存结构学习字依存
结项摘要

中文信息处理的基础问题是确定句子层的基本结构信息,包括的处理任务从词的切分开始直至确定句法语义成分。本项目将重点解决目前中文信息处理中的两个关键性的基础问题,一是如何有效而弹性地定义中文句子的基础结构,特别是能够有效涵盖包括词法层在内的精细结构信息;二是如何有效率地学习这些基础结构信息,同时有效地提高句子一级的学习性能。主要研究内容包括:1)在语言学理论的指导下,研究基本的字依存树定义方法,探索一种具有较少的争议性以及符合语言学直觉的中文基础结构关系的表示方法;2)在研究现有的基于整个句子层面的机器学习框架的基础上,探索既能有效的实现特征表达同时又能高效的学习框架和新的学习模型,以更好地完成依存关系及其派生出来的各种结构化信息学习,同时能够在实用性环境下提升整句学习的性能;为了充分利用有限的学习资源,探索新的半监督度量方法,以便有效地降低标注的人力成本同时进一步地改进学习性能。

项目摘要

本项目完成工作分为语料库建设和学习算法研究两个方面。在语料库建设方面,我们完成了词法内字依存的标完成了词法层面的依存树标注(对应的句子层面语料规模超过200万字),并形成了优化过的相应标注规范。通过比对本项目执行之前的标注,我们发现了一些新的值得关注的语言现象。在学习算法方面,我们发展了一套依存和组合范畴句法结构的高精度转换框架,使得所有的句法分析都可以归结为统一的数据驱动的依存结构学习。于此同时,发展了一种完全的无监督学习模型,该模型已经在图模型上显示出很强的分析性能。提出了更高阶的句法分析模型,目前的试验结果已经显示出鼓舞人心的结果。有关工作发表在本领域的顶级会议。多篇论文被国际重要会议接收。同时我们积极参加了本领域的评测,并且取得了优异的成绩。我们也注重在应用领域的研究,将其应用于中文输入法、拼写检查、机器翻译以及文本分类等多个领域。我们注重人才培养,并成功举办了第六届青年计算语言学会议,帮助推动本领域的发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
3

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

赵海的其他基金

批准号:60973022
批准年份:2009
资助金额:29.00
项目类别:面上项目
批准号:69873007
批准年份:1998
资助金额:10.00
项目类别:面上项目
批准号:61672343
批准年份:2016
资助金额:16.00
项目类别:面上项目
批准号:61170114
批准年份:2011
资助金额:55.00
项目类别:面上项目
批准号:U1836222
批准年份:2018
资助金额:252.00
项目类别:联合基金项目

相似国自然基金

1

向量组合学习框架下基于依存混合树的中文语义解析研究

批准号:61472191
批准年份:2014
负责人:周俊生
学科分类:F0211
资助金额:78.00
项目类别:面上项目
2

基于依存关系的藏文语义角色标注研究

批准号:61363057
批准年份:2013
负责人:祁坤钰
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目
3

基于大规模部分标注数据的依存句法分析

批准号:61502325
批准年份:2015
负责人:李正华
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
4

中文句法分析与语义角色标注的联合学习机制研究

批准号:60970056
批准年份:2009
负责人:朱巧明
学科分类:F0211
资助金额:32.00
项目类别:面上项目