Research about mining Mongolia-Chinese bilingual text resources from Web has important implications for Mongolia-Chinese bilingual resource construction. Present Mongolia-Chinese webpages describing the same thing are often not inter-translation. And there is a great difference between languages describing Mongolia-Chinese texts from webpage in terms of language form, leading to the appearance of matching shift. The above problems enhance the difficulty of mining Mongolia-Chinese bilingual text resources.To conquer the above problems, the project is about to adopt the strategy of level-association mining which improves sensitivity of characteristics between the three levels(grain), which are chapter, sentence and word from Mongolia-Chinese bilingual corpus on the basis of the association within each levels. Main work: 1、Improving the topic matching consistency with Mongolia-Chinese Bi-LDA Model integrated with Mongolia-Chinese bilingual knowledge. 2、Enhancing sensitivity of bilingual lexicon extraction to multi-level characteristics by studying how parameters, like chapter, topics, context distance of word and so on, influence bilingual translation words. 3、Improving discrimination between free translation sentences and comparable sentences with topics assemble, syntactic structure alignment and word disambiguation enhancement. The research can provide new method and thought for bilingual resources mining from Mongolia-Chinese comparable corpus. And further provide beneficial reference for text mining from comparable corpus of language with different morphological like Chinese, Uygur language, Japanese, Korean and so on.
互联网挖掘蒙汉双语文本资源的研究,对蒙汉双语资源建设具有重要的意义。目前网络中的蒙汉网页,对同一事件的描述文档多为非互译文本;同时蒙汉网页中文本的描述语言,在语言形态方面也存在着较大差异,容易出现匹配漂移的现象。上述问题,增加了蒙汉双语文本资源挖掘的困难。本项目拟采用层次关联挖掘的策略,依据蒙汉双语可比篇章、平行句对和互译词汇各层次(粒度)之间的关系,提高不同语言匹配的相关性,克服上述困难。主要工作:1、研究蒙汉双语知识融入跨语言主题模型表征方法,提高可比篇章中主题匹配的一致性;2、研究篇章、主题和上下文距离等参数对词汇匹配的影响,提升互译词汇抽取对多层次特征的敏感性;3、研究主题聚集、句法对齐和词汇消歧增强方法,提高词对齐性能较低的意译句对与可比句对的区分性。本研究将为可比语料挖掘蒙汉双语资源提供新思路与方法;为同属于形态差异较大的汉/维/日/韩等各语种可比语料文本挖掘提供有益参考。
互联网挖掘蒙汉双语文本资源的研究,对蒙汉双语资源建设具有重要的意义。随着网络的发展,互联网逐渐成为一个巨大且取之不尽的多语种语料库。研究从网络中自动挖掘这些海量的、真实的双语文本资源的有效方法,对获取网络资源具有重要的意义。目前网络中的蒙汉网页,对同一事件的描述文档多为非互译文本;同时蒙汉网页中文本的描述语言,在语言形态方面也存在着较大差异,容易出现匹配漂移的现象。. 为了解决上述问题并更加高效准确地挖掘蒙汉双语语料,本基金主要采用层次关联挖掘的策略,依据蒙汉双语可比篇章、平行句对和互译词汇各层次(粒度)之间的关系,提高不同语言匹配的相关性,同时利用所挖掘的蒙汉可比语料研究如何提高诸如蒙汉机器翻译等自然语言处理任务的效果。. 针对项目的研究目标,本课题主要在以下三方面进行深入研究:一是在蒙汉可比语料的挖掘研究,提出基于最大连续文本密度和的网页正文抽取方法,研究形态丰富语言的形态信息获取方法,降低主题模型训练面临的数据稀疏性,同时提出一种融合多特征的蒙汉网页新闻文本相似度计算方法提高蒙汉可比语料的挖掘匹配准确度[1] [2] 3] [4] ;二是在蒙汉可比语料的应用研究方面,主要研究从蒙汉可比语料库中挖掘的形态信息引入汉蒙统计机器翻译中,提出了多种新型高效的方法,提高了蒙汉机器翻译的质量[5] [6] [7];三是在新技术追踪方面,研究了利用神经网络机器翻译的方法,通过神经网络机器翻译注意力机制、迁移学习、权重共享和单语语料的研究,提高可比语料挖掘的时间效率与正确率。. 目前已经完成的工作是:挖掘出汉蒙可比语料篇章对共105475篇(超额 5475篇),约60万句对(超额 10万句对),150万词汇(超额 50万词汇)。准确率达到87.33%(超额 0.233%);发表重要国际会议、期刊论文11篇,申请发明专利2项,软件著作权8项,已培养博士研究生2名,硕士研究生8名。. 对照基金任务书的各项指标,上述工作达到任务书要求,部分工作超额完成。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于分形维数和支持向量机的串联电弧故障诊断方法
平行图像:图像生成的一个新型理论框架
基于语义分析的评价对象-情感词对抽取
基于灰色关联分析模型的武汉市物流产业发展影响因素研究
汉越双语新闻事件关联分析及摘要方法研究
蒙、汉双语的公共危机事件网络舆情管理体系研究
越汉双语组块分析方法研究
汉越双语事件语料库构建及舆情观点挖掘方法研究