中文环境下记录链接法在医学信息学中应用的研究

基本信息
批准号:81701794
项目类别:青年科学基金项目
资助金额:20.00
负责人:李欣然
学科分类:
依托单位:华中农业大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:殷鹏,艾红,綦鹏,唐柳
关键词:
中文字符串相似性度量数据融合记录链接
结项摘要

In medical research, such as public health or epidemiology, the required data are often from different sources. Combining the distributed data can be performed by comparing identification information in patients’ records in order to identify which records refer to the same patients. However, the identification information to compare are sometimes subject to typographical errors that lead to false non-matches, which influence the linkage quality and effectivity. This research project is based on the understanding and previous studies of string approximate comparison and record linkage methods, with application of machine learning, statistics and probability theories, aims to propose an effective and adapted record linkage method for Chinese medical system and Chinese characters, so that one can perform data combination despite inaccurate identification information in records. This project includes the following tasks: proposition of algorithms based on different rules for measuring Chinese characters similarities according to their spellings and pronunciations; adaptation and improvement of the existing record linkage methods to make them applicable to Chinese language system, and assessment of their linkage accuracy; implementation of parallel computation algorithms and optimization record pairs comparison rules in order to improve the efficiency of linkages. The researches in this project will provide theoretical support for linking medical data from different sources, and provide an important technical support for acquiring accurately and efficiently required data for different medical researches.

在公共卫生和流行病学等医学研究中,我们所需的数据时常来自于不同的数据源。上述数据的整合可通过比对各数据源中患者数据的身份识别类信息,来识别并链接多个数据源中涉及同一患者的数据记录。然而,身份识别信息输入的偏差会导致记录链接缺失,从而影响数据的有效整合。本项目在对当前字母语言字符串比对方法与记录链接方法的深入了解和研究的基础上,结合机器学习、概率及统计学理论,提出适合中国医疗体系和汉语文字的有效的记录链接方法,在部分身份识别信息录入不准确的情况下,仍可完成记录匹配或链接。具体的研究内容包括:提出基于不同比对规则的汉字串拼写及发音相似度的计算算法;适配并改进现有记录链接法使其更加适用于汉语言系统,并对其链接准确性进行评估;实施并行运算与优化记录比对规则以提高记录链接的效率。本项目的研究将为有效整合不同数据源中的医疗数据提供理论支持,为各类医学研究中所需数据准确高效的获取提供重要的技术保障。

项目摘要

在公共卫生和流行病学等医学研究中,我们所需的数据时常来自不同的数据源。上述数据的整合可以通过比对各数据源中患者数据的身份识别类信息,以识别并链接多个数据源中涉及同一患者的记录。然而,身份识别信息的缺失或输入的偏差会导致记录无法链接,从而影响数据的有效整合。记录链接法可以较为有效的解决上述问题。目前,基于拉丁语系的记录链接法的研究与应用已得到了较好的发展,但针对中文环境下的记录链接的相关研究却相对较少。汉字作为象形文字,与拉丁语系文字有截然不同的表现形式,因此其相似度度量无法直接使用文献中针对拉丁语系文字的相关方法。本研究提出了有效的基于中文环境的概率记录链接法,主要研究内容包括:提出了基于改进版本音形码的中文字符串相似度算法,将汉字转化为音型码,从而应用音型码来度量中文字符串之间的相似度,并利用EM算法对Winkler概率记录链接法中的匹配概率与不匹配概率的参数进行估计,从而进行记录链接。与已有的记录链接方法相比较,所提出的方法显著地降低了错误不匹配数量,其中精确度为0.884,召回率为0.902。此外,在链接信息出现缺失数据时,现有记录链接方法不能高效的完成记录链接,本项目提出了基于对数似然比的缺失数据字段的权重计算方法,使用此方法可以显著的降低错误不匹配率。本项目为整合不同数据源中的数据提供一个较为合理的方法,拓展了记录链接在中文环境下的研究与应用,利用本研究提出的方法,可以有效地减少多源数据匹配时的人力与时间成本。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

相似国自然基金

1

中文医学文本中关联信息提取方法研究

批准号:30900329
批准年份:2009
负责人:李昊旻
学科分类:H2806
资助金额:20.00
项目类别:青年科学基金项目
2

通用网络语言(UNL)中文环境的应用

批准号:60072045
批准年份:2000
负责人:袁琦
学科分类:F0113
资助金额:18.00
项目类别:面上项目
3

噬齿类动物行为改变的定量化研究在环境医学中的应用

批准号:39840003
批准年份:1998
负责人:刘苹
学科分类:H3007
资助金额:3.00
项目类别:专项基金项目
4

深度迁移学习在中文口语理解中的研究和应用

批准号:61806103
批准年份:2018
负责人:李艳玲
学科分类:F0606
资助金额:24.00
项目类别:青年科学基金项目