Bilingual corpus is the important basic resources of bilingual information processing. Thailand and China have close contacts in politics and economy, so building Thai - Chinese bilingual corpus plays an important role in Thai - Chinese bilingual information processing. This project studies Thai - Chinese bilingual parallel corpus acquisition for Internet oriented, bilingual parallel sentence pairs extraction, bilingual words extraction and automatic alignment method. First of all, for the characteristics of Thai and Chinese news web pages, combined with Thai - Chinese language knowledge, research bilingual comparable corpus acquisition method for integrating cross-language thematic analysis and Dirichlet process; secondly, the fusion of Thai and Chinese dependency syntax similar and co-occurrence features, dictionary translation features, study Thai - Chinese bilingual parallel sentence pairs and bilingual vocabulary iterative extraction methods; then, on the basis of IBM model 3 related characteristics, the integration of Thai and Chinese dependency syntactic nodes alignment features, research Thai - Chinese words automatic alignment method based on the linear model. Finally, based on the above method, Thai - Chinese corpora acquisition and alignment system was implemented, which solve the bilingual corpus automatic acquisition, parallel sentence pairs extraction and difficult problems in automatic words alignment, and build Thai - Chinese bilingual sentence alignment corpus and words alignment corpus. Project research results will provide corpus resources for Thai - Chinese bilingual understanding, and lay the foundation for further study Thai - Chinese bilingual natural language processing.
双语语料库是双语信息处理的重要基础资源。泰国与我国政治经济交往密切,构建泰语-汉语双语语料库对泰语-汉语双语信息处理具有重要作用。本课题研究面向互联网的泰语-汉语双语语料获取、平行句对抽取、双语词汇抽取和词语对齐方法。首先,针对泰语和汉语新闻网页特点,结合泰语、汉语言知识,研究融合跨语言主题分析和狄利克雷过程的双语可比较语料获取方法;其次,融合泰语和汉语依存句法特征、词典互译特征,研究泰-汉双语平行句对和双语词汇迭代抽取方法;然后,在IBM 模型3相关特征基础上,融合泰语和汉语依存句法依存关系对齐特征,研究基于线性模型的泰-汉词语自动对齐方法。最后,基于以上方法,实现泰语-汉语语料获取及对齐系统,解决双语语料自动获取、平行句对抽取和自动词语对齐中的难点问题,构建泰-汉双语句子对齐语料库和词语对齐语料库。项目研究成果将为泰-汉双语理解提供语料资源,为进一步研究泰-汉双语自然语言处理奠定基础。
双语语料库是机器翻译和双语信息检索的重要基础资源。本课题围绕泰语-汉语双语语料库构建问题,开展泰语-汉语双语可比较语料获取、平行句对抽取、双语词汇抽取和词语对齐方法研究。课题研究得了多项创新性研究成果:在国内外期刊发表论文14篇,其中SCI收录1篇,EI收录4篇,登记软件著作权1项。课题构建了8万余词的泰语-汉语双语词典,20万篇泰语-汉语可比较语料库,120万句对的泰语-汉语句子对齐语料库,以及10余词的词语对齐语料库。.在泰语语言分析工具方面,课题开展了泰语音节切分、词语切分、句子切分和词性标注研究,取得了很好切分和标注效果,为泰语-汉语双语语料库构建研究奠定了基础。课题针对可比较语料获取问题,提出了基于双语LDA主题模型的跨语言文本相似度计算方法,提高了可比较语料的召回率。.课题针对双语平行句对抽取问题,研究了单语和跨语言句子级的文本相似性度量方法,提出了结合词向量、句法结构和词序特征的多特征融合句子相似度计算方法;针对汉语-泰语句子相似度问题,提出了利用WordNet语义词典将汉语和泰语文本表示为中间语言,并基于中间语言计算汉语和泰语跨语言相似度的方法,为从汉语-泰语可比语料中抽取平行句对提供了方法。.课题针对词语对齐问题,利用汉语-泰语名词、动词分布的相似性,通过弱监督学习扩展方式,在中文语料中嵌入泰语的互译词、同类词、上义词,扩展生成跨语言语料,并基于生成的语料,研究了汉语-泰语双语词向量模型,取得了较好效果。.课题研究针对泰语词法分析方法、可比语料获取、平行句对抽取方法以及词对齐问题提出了新颖、有效的方法。借助于提出的方法,构建的汉语-泰语可比语料库、句子对齐语料库和词对齐语料库,为进一步开展泰语-汉语机器翻译、跨语言信息检索奠定了基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
气载放射性碘采样测量方法研究进展
基于全模式全聚焦方法的裂纹超声成像定量检测
基于混合优化方法的大口径主镜设计
基于互联网的汉语-缅语双语平行语料抽取方法及语料库构建
汉越双语语料库建设及词对齐方法研究
纳西-汉语双语语料库构建与翻译方法研究
面向汉语-泰语跨语言新闻事件检索方法研究