语料资源缺乏的小语种语言的自然语言处理技术受到语料资源的限制而难以发展高精度的统计方法。当前的跨语言映射方法局限于双语对齐句对的词对齐结果,双语间标注的映射方法难以处理复杂对应关系、准确率低。为此,本课题提出了通过统计方法从语料中学习映射模型,并允许映射模型与目标模型彼此互相改进的跨语言映射框架。为了完成这一任务,本课题将结构化数据的自然语言处理任务的跨语言映射形式化为半监督结构化学习问题,利用半监督结构化学习方法,结合自然语言处理问题的任务特性,为跨语言映射问题提供新的解决方案。同时,本课题希望将语言的更抽象的属性引入到跨语言映射的半监督学习框架中,而不仅限于词对齐结果。这些抽象属性既包括语言学符号及其关系,也包括通过双语上下文统计得出的相似关系。这些属性使得双语语料中的更多信息可以得到利用,帮助提高跨语言映射方法的精度。
在许多自然语言处理任务中,往往受到语料资源的限制而难以发展高精度的统计方法。为了减少对标注数据的依赖,本项目提出了关于自然语言处理的若干半监督学习方法,主要研究内容包括:(1)将跨语言映射问题转换为半监督结构化学习问题,并建立符合问题特点的模型;(2)对已有半监督方法在结构化数据上加以推广,通过在新的问题表示空间上利用少量有标记数据进行参数细调,同时将随机梯度下降思想引入到相关半监督学习框架中并对随机梯度下降方法进行了改进;(3)将资源充分语言的相关知识以多种关联形式迁移到新语言的知识学习中,改进了从可比较语料中抽取同义词对的性能。.在研究内容的第一方面,本项目分别进行了跨语言映射的半监督结构化学习框架和跨语言映射的噪声可学习性问题及去噪算法的研究。提出了基于协同训练的半监督跨语言映射算法和基于标签传播的半监督跨语言映射算法,实验表明协同训练算法在目标语言词性标注的性能上达到81.14%,比同类最好算法提高了近2个百分点;而标签传播算法在词性标注跨语言映射上性能从81.78%提升至83.28%。将二类分类问题的噪声学习理论推广到多类上,得到多类分类问题的噪声可学习性理论。证明了多类分类任务的噪声PAC可学习性和生成式一阶序列标注模型势函数的噪声PAC可学习性,在此基础上提出了基于置信度的协同训练数据选择和基于n元词组相似度的去噪方法。.在研究内容的第二方面,提出了一种基于丰富特征的结构表示合成模型(Feature-rich Compositional Embedding Model,FCM)。该模型在ACE2005关系抽取任务测试集上取得了比基线系统高4%的性能,达到58.26%。提出了基于目标任务和语言模型的联合训练算法框架,该方法在短语嵌入学习上的实验结果超过了有监督方法,取得了当时最好性能。.在研究内容的第三方面,本项目提出了结合时序分布表示和词嵌入表示的双语词典抽取方法、基于典型关联分析(Canonical Correlation Analysis,CCA)的强制关联方法,这两种方法在相关实验上均取得了远超基线系统的性能。还提出了基于局部加权线性回归方法的双语词典抽取的方法,其实验结果相比基线系统增长了36.7%。.本项目对于跨语言映射的半监督结构化学习框架及其应用通用的自然语言结构表示的研究具有很好参考价值
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
人类T淋巴细胞白血病1型病毒HBZ蛋白通过抑制C/EBPalpha信号通路促进肿瘤细胞生长的机制研究
结构化数据的非监督/半监督学习问题研究及应用
基于图的半监督学习算法研究
数据流半监督分类中的半监督迁移学习研究
基于结构化学习的有监督词对齐方法研究