基于半监督结构化学习的跨语言映射研究

基本信息
批准号:61173073
项目类别:面上项目
资助金额:57.00
负责人:赵铁军
学科分类:
依托单位:哈尔滨工业大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:曹海龙,于墨,梁华参,张春越,胡鹏龙,王澍,秦彦霞,韩威,李婷婷
关键词:
半监督学习跨语言映射自然语言处理结构化学习
结项摘要

语料资源缺乏的小语种语言的自然语言处理技术受到语料资源的限制而难以发展高精度的统计方法。当前的跨语言映射方法局限于双语对齐句对的词对齐结果,双语间标注的映射方法难以处理复杂对应关系、准确率低。为此,本课题提出了通过统计方法从语料中学习映射模型,并允许映射模型与目标模型彼此互相改进的跨语言映射框架。为了完成这一任务,本课题将结构化数据的自然语言处理任务的跨语言映射形式化为半监督结构化学习问题,利用半监督结构化学习方法,结合自然语言处理问题的任务特性,为跨语言映射问题提供新的解决方案。同时,本课题希望将语言的更抽象的属性引入到跨语言映射的半监督学习框架中,而不仅限于词对齐结果。这些抽象属性既包括语言学符号及其关系,也包括通过双语上下文统计得出的相似关系。这些属性使得双语语料中的更多信息可以得到利用,帮助提高跨语言映射方法的精度。

项目摘要

在许多自然语言处理任务中,往往受到语料资源的限制而难以发展高精度的统计方法。为了减少对标注数据的依赖,本项目提出了关于自然语言处理的若干半监督学习方法,主要研究内容包括:(1)将跨语言映射问题转换为半监督结构化学习问题,并建立符合问题特点的模型;(2)对已有半监督方法在结构化数据上加以推广,通过在新的问题表示空间上利用少量有标记数据进行参数细调,同时将随机梯度下降思想引入到相关半监督学习框架中并对随机梯度下降方法进行了改进;(3)将资源充分语言的相关知识以多种关联形式迁移到新语言的知识学习中,改进了从可比较语料中抽取同义词对的性能。.在研究内容的第一方面,本项目分别进行了跨语言映射的半监督结构化学习框架和跨语言映射的噪声可学习性问题及去噪算法的研究。提出了基于协同训练的半监督跨语言映射算法和基于标签传播的半监督跨语言映射算法,实验表明协同训练算法在目标语言词性标注的性能上达到81.14%,比同类最好算法提高了近2个百分点;而标签传播算法在词性标注跨语言映射上性能从81.78%提升至83.28%。将二类分类问题的噪声学习理论推广到多类上,得到多类分类问题的噪声可学习性理论。证明了多类分类任务的噪声PAC可学习性和生成式一阶序列标注模型势函数的噪声PAC可学习性,在此基础上提出了基于置信度的协同训练数据选择和基于n元词组相似度的去噪方法。.在研究内容的第二方面,提出了一种基于丰富特征的结构表示合成模型(Feature-rich Compositional Embedding Model,FCM)。该模型在ACE2005关系抽取任务测试集上取得了比基线系统高4%的性能,达到58.26%。提出了基于目标任务和语言模型的联合训练算法框架,该方法在短语嵌入学习上的实验结果超过了有监督方法,取得了当时最好性能。.在研究内容的第三方面,本项目提出了结合时序分布表示和词嵌入表示的双语词典抽取方法、基于典型关联分析(Canonical Correlation Analysis,CCA)的强制关联方法,这两种方法在相关实验上均取得了远超基线系统的性能。还提出了基于局部加权线性回归方法的双语词典抽取的方法,其实验结果相比基线系统增长了36.7%。.本项目对于跨语言映射的半监督结构化学习框架及其应用通用的自然语言结构表示的研究具有很好参考价值

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

赵铁军的其他基金

批准号:31470262
批准年份:2014
资助金额:85.00
项目类别:面上项目
批准号:81072900
批准年份:2010
资助金额:29.00
项目类别:面上项目
批准号:50378045
批准年份:2003
资助金额:24.00
项目类别:面上项目
批准号:60575041
批准年份:2005
资助金额:23.00
项目类别:面上项目
批准号:59878021
批准年份:1998
资助金额:13.00
项目类别:面上项目
批准号:31200128
批准年份:2012
资助金额:26.00
项目类别:青年科学基金项目
批准号:60373101
批准年份:2003
资助金额:23.00
项目类别:面上项目
批准号:91520204
批准年份:2015
资助金额:171.00
项目类别:重大研究计划
批准号:60773069
批准年份:2007
资助金额:28.00
项目类别:面上项目
批准号:50739001
批准年份:2007
资助金额:190.00
项目类别:重点项目

相似国自然基金

1

结构化数据的非监督/半监督学习问题研究及应用

批准号:61003135
批准年份:2010
负责人:徐林莉
学科分类:F0605
资助金额:18.00
项目类别:青年科学基金项目
2

基于图的半监督学习算法研究

批准号:11526087
批准年份:2015
负责人:左玲
学科分类:A0205
资助金额:3.00
项目类别:数学天元基金项目
3

数据流半监督分类中的半监督迁移学习研究

批准号:61866007
批准年份:2018
负责人:文益民
学科分类:F0603
资助金额:38.00
项目类别:地区科学基金项目
4

基于结构化学习的有监督词对齐方法研究

批准号:61003112
批准年份:2010
负责人:戴新宇
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目