机器翻译是国际上激烈竞争的多学科交叉高难研究课题,具重大的理论研究意义和应用前景。而民汉机器翻译研究对于促进我国民族团结以及民族地区的经济社会发展更具有紧迫的现实意义与深远的历史意义。本项目针对民族语言资源相对匮乏,统计为主的方法难以奏效的不足,提出一种以语言模型为主的基于语义本体的有机结合了基于规则的多知识一体化分析、基于统计的最小递归语义组块识别及获取、基于实例模式的泛化匹配、及基于可信度反馈的统计译后校正等多种处理策略的民(维/藏)汉机器翻译方法,深入研究其中所涉及的基于本体的语言特征体系设计及语言知识本体构建、基于语言知识本体的语义计算框架及多知识一体化语言分析算法、基于最小递归语义的语言组块识别及其双语对齐算法、基于语义本体的多策略民汉机器翻译模型研究等关键科学技术问题。该项研究不仅能满足对民汉翻译技术的迫切需求,也能对机器翻译及其它自然语言处理研究提供经验和宝贵的语言资源。
藏汉、维汉机器翻译研究对于促进我国民族团结及地区经济、社会发展具有紧迫现实意义。民族语言资源匮乏,目前统计机器学习为主的方法难以达到理想的翻译性能,开展面向资源稀缺语言的、以机器翻译为主的智能信息处理研究具有重要理论意义与价值。.本项目深入研究了藏语黏写、句法功能、长句切分及维语词缀词干切分等难题,开创性研究了藏语语义角色标注,并率先开展了藏语树库建设;提出了基于通用规范维语词干词缀切分、基于多形态语音和谐规律的维语词干识别等方法,制定完成了维语词类、词干、词尾标注规范,推动了相关国家标准的进程;构建了大规模维、藏知识库与资源,极大改善了藏、维语言智能信息处理的研究生态环境。.提出了基于语言知识本体的语义计算框架及多知识一体化语言分析算法,借助本体知识库分类特性,提升了知识库在知识表示、存储和共享等方面的性能;创新性地提出了将异构结构化知识库与非结构化自然语言转化为同构三元组形式的表示学习方法,利用翻译表示的思想学习实体、关系和自然语言的向量表示;提出了引入概念信息的短文本向量化建模方法,并基于注意力模型进行扩展,有效增强短文本向量的语义表达能力和甄别能力。.提出了基于异构关系网络图、基于依存适配度、基于领域知识的图模型词义消歧方法,显著提升了消歧性能;提出了以最小递归语义组块为基本单元的组块边界界定、属性继承传递,及双语最大名词组块分离-融合翻译方法,引入最小递归语义实现动宾语义搭配一致性分析;提出了基于双语协同训练的类组块MNP识别方法,显著提高了双语MNP的跨领域识别性能。.设计研制了基于本体的多策略藏汉、维汉机器翻译系统,及一系列针对语言分析处理软件工具。部分成果已在国家安全及国防有关部门部署应用。项目研究发表论文62篇,其中CCF A类期刊/会议论文5篇,SCI收录7篇,出版专著等4部,申请专利17项,授权6项。培养研究生81名,举办学术会议4次,参加国际顶级评测1次。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于融合策略的汉藏(藏汉)机器翻译关键技术研究
新疆民汉语机器翻译系统基础研究
基于深度语义的汉维机器翻译研究
朝汉机器翻译系统