汉维医疗卫生用语资源库建设研究

基本信息
批准号:61562082
项目类别:地区科学基金项目
资助金额:38.00
负责人:于清
学科分类:
依托单位:新疆大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:木合亚提.尼亚孜别克,洪勇明,巴吐尔.艾沙,瓦依提.阿不力孜,买买提依明·哈斯木,热西旦木,米尔阿迪力江·麦麦提,李端端
关键词:
分词汉维医疗卫生平行语料库医疗卫生双语词典医学术语抽取
结项摘要

The new health care reform of China proposed to move the medical system to information system, this way the medical information of patient could be better shared and reused. The rural regions of Xinjiang are very behind in medical facilities and information technologies. The minorities in these areas use their native languages, which make it’s hard for them to adapt the new medical information system and services. This project focus on the auto translation between Chinese and Uygur in the domain of media and health system, it has significant values but it has big challenges. First challenge is the applicability of the model: Chinese is different from Uyghur in word order and Chinese is also non symmetric in forms. The mature phrase translation model is not very useful in dealing with these problems, the Syntactic translation model is too complicated. This project is based on the model of phrase translation. In word level, it adds extended log linear model (Factored Model) which is dependent on syntactic information and form information. And these resolve the issues of word order and morphology. LOP is also applied to optimize parameters in the model in order to promote accuracy of translation;Secondly challenge is the short of parallel corpus: There is no relative parallel corpus for researching on the current Chinese-Uyghur medical care and health system. This work also proposes a semi-auto method to build the first parallel corpus for Chinese-Uygur medical care and health system. We present it as open source to all the researchers. This work would greatly help to make progress in the Han-minority machine translation and to promote the development of medical and health services in the minority areas. The work would promote common prosperity and progress for all our ethnic groups.

我国新医改提出医疗信息化建设,增强共享服务,新疆边远地区医疗设施落后,这里的少数民族一直使用自己的语言文字,语言问题将严重阻碍他们在新时期获得现代医疗服务,本项目研究汉维医疗卫生用语自动翻译具有重要社会价值和现实意义,但面临巨大挑战。第一翻译模型适用性:汉维两种语言语序不同且形态不对称,当前较成熟的短语翻译模型难以应对,句法翻译模型过于复杂。本项目基于短语翻译模型,在词级别上增加依存句法信息和形态信息构造扩展型对数线性模型(Factored模型),解决翻译中语序及词形错误等问题,并采用LOP方法对Factored模型参数进行优化,提高译文忠实度;第二平行语料匮乏:目前尚无研究所用汉维医疗卫生平行语料库。本项目提出半自动建库方法,构建首个汉维医疗卫生平行语料库,免费向研究者开放。本项目顺利完成,将推动我国汉民机器翻译研究进展,促进少数民族地区医疗卫生事业发展,从而增进各民族繁荣和团结。

项目摘要

本项目按研究计划有效实施,在资源建设方面取得以下成果,构建了汉维医疗卫生领域平行语料库,汉维双语医疗卫生电子词典,汉语医疗领域依存句法树库等,一定程度上填补国内空白。具体如下:人工采集汉语医疗卫生语料共计45207句。覆盖临床十二大学科:内科学、外科学、儿科学、妇产科学、传染病学、皮肤病学、五官科学、流行病学、神经病、精神病、眼科和口腔科,合计500种以上疾病。针对每种疾病,采集内容包括:病因、病理,临床表现;检查、辅助检查、实验室检查;诊断、鉴别诊断;治疗、理疗;预防等,是人工采集覆盖临床医学范围较广的专业语料库。同时,人工翻译获得汉维平行语料45207句对。人工采集汉语医疗卫生电子词典117519词条,人工翻译及自动化抽取方式获得汉维双语医疗卫生电子词典60141对词条。同时,借助哈尔滨工业大学LTP语言云平台,辅助人工校对,构建医疗卫生领域依存句法树17283句。以上资源为专业领域汉维机器翻译技术提高奠定基础,将促进医疗卫生领域自然语言处理技术研究,为迎接互联网+医疗,开拓新疆医疗领域智能化服务新前景。. 本项目围绕医疗卫生领域汉维机器翻译研究,首先面对稀缺、专业性强的平行语料库建设,探索数据采集、标准化、去噪、自动录入方法,分析了医疗卫生领域语料数据特征,与通用型语料不同的是,频率低的大多数词汇也是专业词汇,具有一定意义。其次,研究了现有中文分词技术在医疗卫生领域的应用,得出结论词典统计相结合的分词方法,准确率较高,达到94.4%;探索基于汉维医疗平行语料自动化提取大量医学双语术语的方法,构建双语电子词典;同时构建了稀有的医疗卫生领域依存句法树库;还研究了新疆各少数民族语言特征,具有区域语言共性,以上为提高机器翻译质量做了基础性研究。最后,研究了神经机器翻译技术,发表与课题相关论文共7篇,申请软件著作3项。本项目构建的资源和研究的成果无偿提供给国内其他研究团队使用。同时,结合最新神经机器翻译技术,继续展开研究,提高其在医疗卫生领域翻译性能。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
2

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016
3

基于二维材料的自旋-轨道矩研究进展

基于二维材料的自旋-轨道矩研究进展

DOI:10.7498/aps.70.20210004
发表时间:2021
4

平行图像:图像生成的一个新型理论框架

平行图像:图像生成的一个新型理论框架

DOI:10.16451/j.cnki.issn1003-6059.201707001
发表时间:2017
5

自组装短肽SciobioⅡ对关节软骨损伤修复过程的探究

自组装短肽SciobioⅡ对关节软骨损伤修复过程的探究

DOI:10.13417/j.gab.039.003219
发表时间:2020

于清的其他基金

相似国自然基金

1

昆虫病原线虫及其共生菌资源调查及种质资源库建设

批准号:30470256
批准年份:2004
负责人:邱礼鸿
学科分类:C0405
资助金额:20.00
项目类别:面上项目
2

精神疾病家系资源库的建设与数据库管理

批准号:30671153
批准年份:2006
负责人:曾丽苹
学科分类:H1005
资助金额:32.00
项目类别:面上项目
3

汉越双语语料库建设及词对齐方法研究

批准号:61262041
批准年份:2012
负责人:郭剑毅
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目
4

长白山野生桔梗资源遗传多样性分析及野生桔梗种质资源库建设

批准号:30660016
批准年份:2006
负责人:吴基日
学科分类:C0208
资助金额:22.00
项目类别:地区科学基金项目