进入21世纪以来,可比语料库(comparable corpus)的研究在我国自然语言处理和计算语言学界还是一个空白。根据90年代国际语料库语言学的研究与发展,认为可比语料库的导入将克服平行语料库抽取语言知识中,受本国语言表达框架影响而产生的噪音和翻译腔,从而使基于语料库语言学的术语自动抽取的研究进入一个崭新的阶段。从机器翻译应用出发,建立国际性体育赛事领域(奥运会以及类似的国际性比赛)的汉英可比语料库,结合汉语和英语的特点,研究从汉英可比语料库中自动提取中英体育术语词汇(包括当代新出现的体育术语词汇)的算法和模型,将促进我国语料库语言学的发展,缩小我国的语料库语言学的研究与国际先进水平的差距。同时,本项目的研究成果将直接用于北京2008年奥运会跨语言信息交流应用平台建设,具有深远的社会效益和国际影响。
{{i.achievement_title}}
数据更新时间:2023-05-31
信息熵-保真度联合度量函数的单幅图像去雾方法
基于暂态波形相关性的配电网故障定位方法
相关系数SVD增强随机共振的单向阀故障诊断
山西省大气PM2.5 污染时空分布特征∗
基于粒子群优化算法的级联喇曼光纤放大器
汉英平行语料库翻译知识提取系统研究-自动提取术语、术语搭配及词组块
基于三元组可比语料库的语言自动剖析技术应用研究
可比语料库质量量化与提升方法研究
机器翻译系统中英汉双语语料库对齐技术的应用基础研究