基于半监督结构化学习的跨语言映射研究

基本信息

批准号：61173073

项目类别：面上项目

资助金额：57.00

负责人：赵铁军

学科分类：

依托单位：哈尔滨工业大学

批准年份：2011

结题年份：2015

起止时间：2012-01-01 - 2015-12-31

项目状态：已结题

项目参与者：曹海龙,于墨,梁华参,张春越,胡鹏龙,王澍,秦彦霞,韩威,李婷婷

关键词：

半监督学习跨语言映射自然语言处理结构化学习

结项摘要

语料资源缺乏的小语种语言的自然语言处理技术受到语料资源的限制而难以发展高精度的统计方法。当前的跨语言映射方法局限于双语对齐句对的词对齐结果，双语间标注的映射方法难以处理复杂对应关系、准确率低。为此，本课题提出了通过统计方法从语料中学习映射模型，并允许映射模型与目标模型彼此互相改进的跨语言映射框架。为了完成这一任务，本课题将结构化数据的自然语言处理任务的跨语言映射形式化为半监督结构化学习问题，利用半监督结构化学习方法，结合自然语言处理问题的任务特性，为跨语言映射问题提供新的解决方案。同时，本课题希望将语言的更抽象的属性引入到跨语言映射的半监督学习框架中，而不仅限于词对齐结果。这些抽象属性既包括语言学符号及其关系，也包括通过双语上下文统计得出的相似关系。这些属性使得双语语料中的更多信息可以得到利用，帮助提高跨语言映射方法的精度。

项目摘要

在许多自然语言处理任务中，往往受到语料资源的限制而难以发展高精度的统计方法。为了减少对标注数据的依赖，本项目提出了关于自然语言处理的若干半监督学习方法，主要研究内容包括：（1）将跨语言映射问题转换为半监督结构化学习问题，并建立符合问题特点的模型；（2）对已有半监督方法在结构化数据上加以推广，通过在新的问题表示空间上利用少量有标记数据进行参数细调，同时将随机梯度下降思想引入到相关半监督学习框架中并对随机梯度下降方法进行了改进；（3）将资源充分语言的相关知识以多种关联形式迁移到新语言的知识学习中，改进了从可比较语料中抽取同义词对的性能。.在研究内容的第一方面，本项目分别进行了跨语言映射的半监督结构化学习框架和跨语言映射的噪声可学习性问题及去噪算法的研究。提出了基于协同训练的半监督跨语言映射算法和基于标签传播的半监督跨语言映射算法，实验表明协同训练算法在目标语言词性标注的性能上达到81.14%，比同类最好算法提高了近2个百分点；而标签传播算法在词性标注跨语言映射上性能从81.78%提升至83.28%。将二类分类问题的噪声学习理论推广到多类上，得到多类分类问题的噪声可学习性理论。证明了多类分类任务的噪声PAC可学习性和生成式一阶序列标注模型势函数的噪声PAC可学习性，在此基础上提出了基于置信度的协同训练数据选择和基于n元词组相似度的去噪方法。.在研究内容的第二方面，提出了一种基于丰富特征的结构表示合成模型(Feature-rich Compositional Embedding Model，FCM)。该模型在ACE2005关系抽取任务测试集上取得了比基线系统高4%的性能，达到58.26%。提出了基于目标任务和语言模型的联合训练算法框架，该方法在短语嵌入学习上的实验结果超过了有监督方法，取得了当时最好性能。.在研究内容的第三方面，本项目提出了结合时序分布表示和词嵌入表示的双语词典抽取方法、基于典型关联分析（Canonical Correlation Analysis，CCA）的强制关联方法，这两种方法在相关实验上均取得了远超基线系统的性能。还提出了基于局部加权线性回归方法的双语词典抽取的方法，其实验结果相比基线系统增长了36.7%。.本项目对于跨语言映射的半监督结构化学习框架及其应用通用的自然语言结构表示的研究具有很好参考价值

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.13376/j.cbls/2021092

发表时间：2021

DOI：10.12305/j.issn.1001-506x.2022.03.19

发表时间：2022

DOI：10.11834/jrs.20209056

发表时间：2020

DOI：

发表时间：2022

赵铁军的其他基金

批准号：31470262

批准年份：2014

资助金额：85.00

项目类别：面上项目

批准号：81072900

批准年份：2010

资助金额：29.00

项目类别：面上项目

批准号：50378045

批准年份：2003

资助金额：24.00

项目类别：面上项目

批准号：60575041

批准年份：2005

资助金额：23.00

项目类别：面上项目

批准号：59878021

批准年份：1998

资助金额：13.00

项目类别：面上项目

批准号：31200128

批准年份：2012

资助金额：26.00

项目类别：青年科学基金项目

批准号：60373101

批准年份：2003

资助金额：23.00

项目类别：面上项目

批准号：91520204

批准年份：2015

资助金额：171.00

项目类别：重大研究计划

批准号：60773069

批准年份：2007

资助金额：28.00

项目类别：面上项目

批准号：50739001

批准年份：2007

资助金额：190.00

项目类别：重点项目

相似国自然基金

结构化数据的非监督/半监督学习问题研究及应用

批准号：61003135

批准年份：2010

负责人：徐林莉

学科分类：F0605

资助金额：18.00

项目类别：青年科学基金项目

基于图的半监督学习算法研究

批准号：11526087

批准年份：2015

负责人：左玲

学科分类：A0205

资助金额：3.00

项目类别：数学天元基金项目

数据流半监督分类中的半监督迁移学习研究

批准号：61866007

批准年份：2018

负责人：文益民

学科分类：F0603

资助金额：38.00

项目类别：地区科学基金项目

基于结构化学习的有监督词对齐方法研究

批准号：61003112

批准年份：2010

负责人：戴新宇

学科分类：F0211

资助金额：20.00

项目类别：青年科学基金项目

基于半监督结构化学习的跨语言映射研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

现代优化理论与应用

骨外器官来源外泌体对骨骼调控作用的研究进展

空中交通延误预测研究综述

基于编解码网络的航空影像像素级建筑物提取

融合字符串特征的维吾尔语形态切分

赵铁军的其他基金

长链非编码RNA-ANRIL在人类T淋巴细胞白血病1型病毒致癌中的作用及其分子机制研究

引经中药诱导骨髓干细胞定向迁移、归家治疗兔膝骨关节炎的研究

沿海混凝土建筑的破坏机理与修复技术

基于Ontology的自然语言描述的空间概念三维可视化研究

电测混凝土渗透性中的化学成分影响与修正

人类T淋巴细胞白血病1型病毒HBZ蛋白通过抑制C/EBPalpha信号通路促进肿瘤细胞生长的机制研究

汉语动词次范畴化自动获取技术的研究

面向汉语文本理解的语义计算方法

英汉动词次范畴化对应关系自动获取研究

海底隧道工程劣化机理与防护技术研究

相似国自然基金