基于深度学习的藏文向量表示方法研究

基本信息
批准号:61866032
项目类别:地区科学基金项目
资助金额:41.00
负责人:才智杰
学科分类:
依托单位:青海师范大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:才让加,头旦才让,多杰才让,拉玛扎西,华旦扎西,班玛宝
关键词:
藏文深度学习自然语言处理向量表示
结项摘要

In recent years, there has been a rapid development in the study of deep learning. One of the main contributions of deep learning in Natural Language Processing is vector representation technology. Vector representation of words and sentences for English and Chinese has achieved fruitful results and has been widely utilized. The study of vector representation of Tibetan language is just at beginning, and there is a huge space for exploration. The research of this project is advanced and urgent. . The project will study the vector representation problem for four Tibetan language units, i.e., character components, characters, words and sentences, from the following four aspects: 1) a lightweight Tibetan word representation learning method based on the integration of character components, character and words; 2) a Tibetan word and sentence representation learning method based on the integration of sub-words and words; 3) a Tibetan word and sentence representation learning method based on bilingual corpora; and 4) a Tibetan word and sentence representation learning method in an unified framework. The main software tools and core data set consisting of various vector representations obtained in this project will be open to the public. . This project would prompt the Tibetan information processing to quickly catch up with the new trend of deep learning and realize the leap forward development. The expected results also have a demonstration effect on other minority languages-related studies.

近年来深度学习研究有了突飞猛进的发展。深度学习在自然语言处理中的主要贡献之一是向量表示技术,英、汉等的词和句子的向量表示都取得了丰硕成果,并得到了广泛应用。藏文的向量表示研究尚处于起步阶段,存在巨大的探索空间。本项目研究具有前沿性和紧迫性。. 本项目将从以下四个方面对字的构件、字、词和句子这四种藏文基本语言单元的向量表示问题进行深入研究:一是融合“构件、字、词”的轻量级藏文词表示学习方法研究;二是融合“子词、词”的藏文句子表示学习方法研究;三是基于双语语料库的藏文词和句子表示学习方法研究;四是统一框架下的藏文词和句子表示学习方法研究。项目产出的主要软件工具和向量表示数据集中的基本部分将向社会开放。. 本项目的实施将促使藏文信息处理迅速赶上深度学习的新潮流,实现跨越式发展。预期成果对其它少数民族语言相关研究也具有示范作用。

项目摘要

近年来随着硬件性能的提升及优化算法的突破,深度学习技术有了突飞猛进的发展,成为大数据时代自然语言处理领域的研究热点。深度学习在自然语言处理中的主要贡献之一是词向量表示技术,英、汉等的词向量表示技术不仅取得了丰硕成果,而且得到广泛应用。在深度学习的藏语自然语言处理中,藏文词向量是其基本要素,有了适合藏文的词向量表示,才能更好地利用深度学习技术解决深层次问题。. 项目采用深度学习技术,从藏文字构件分解技术、藏文分词语料库建设技术、藏文词向量评测集构建、藏文词向量表示技术、藏文句子向量表示技术方面,多层次、多角度研究了藏文词向量表示技术,设计了基于构件的藏文字向量表示模型(VMTT)、融合构件和字信息的藏文词向量表示模型(TCCWE)、融合构件、字和词及位置特征的藏文词向量表示(TCCWEⅡ+P)、基于Bert的藏文词向量表示(TWER_BERT),解决了藏文词向量中关键科学问题,使藏文词向量表示性能有了较大的提升。. 课题组全体成员通过四年的不懈努力,按原计划圆满完成了研究任务,达到了项目预期目标,完成了项目各项指标。项目建立了《藏文全集构件分解表》、《藏文全集字丁切分表》、《藏文通用字向量表》、《藏文常用词向量表》和177.3M藏语分词语料等资源,构建了藏文词向量相似度评测集、相关性评测集、类比评测集和藏文句子相似度评测集,设计了6种藏文词向量表示模型和3种藏文句子向量表示模型,撰写学术论文35篇,其中发表25篇(SCI/EI/ISTP检索10篇,核心期刊14篇),录用3篇,外审7篇,撰写博士学位论文5篇、硕士学位论文15篇,开发了15款软件,完成软件著作权登记13项,申请了2项发明专利,培养15名硕士研究生和5名博士研究生,参加学术会议70人次,组织召开7次小型学术研讨会,学术会议上做了2次有关词向量表示及发展动态的学术报告。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

现代优化理论与应用

现代优化理论与应用

DOI:10.1360/SSM-2020-0035
发表时间:2020
2

空中交通延误预测研究综述

空中交通延误预测研究综述

DOI:10.12305/j.issn.1001-506x.2022.03.19
发表时间:2022
3

基于编解码网络的航空影像像素级建筑物提取

基于编解码网络的航空影像像素级建筑物提取

DOI:10.11834/jrs.20209056
发表时间:2020
4

融合字符串特征的维吾尔语形态切分

融合字符串特征的维吾尔语形态切分

DOI:
发表时间:2022
5

基于边信息的高光谱图像恢复模型

基于边信息的高光谱图像恢复模型

DOI:10.19734/j.issn.1001-3695.2020.12.0564
发表时间:2021

才智杰的其他基金

批准号:61163018
批准年份:2011
资助金额:47.00
项目类别:地区科学基金项目

相似国自然基金

1

基于多维向量的动作模型表示及其学习方法的研究

批准号:61906216
批准年份:2019
负责人:萧展豪
学科分类:F0601
资助金额:25.00
项目类别:青年科学基金项目
2

基于图结构的数据表示和深度学习方法

批准号:61876152
批准年份:2018
负责人:王鹏
学科分类:F0604
资助金额:62.00
项目类别:面上项目
3

基于深度学习的社交图像多模态表示学习研究

批准号:61906075
批准年份:2019
负责人:黄斐然
学科分类:F0606
资助金额:24.00
项目类别:青年科学基金项目
4

基于深度学习框架的多媒体大数据表示学习

批准号:61402479
批准年份:2014
负责人:程斌
学科分类:F0210
资助金额:26.00
项目类别:青年科学基金项目