医疗文本大数据中的无监督统计分词新方法研究

基本信息
批准号:11801301
项目类别:青年科学基金项目
资助金额:24.00
负责人:俞声
学科分类:
依托单位:清华大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:余丽珊,林毓聪,袁正
关键词:
图分割文本数据无监督学习医疗大数据中文分词
结项摘要

Medical text data is the medium that contains the knowledge and experience of the physicians. Analyzing the medical text data therefore can speed up the development of medical science and can improve the standard of healthcare. However, the analysis of medical text data is a great challenge and an engineering enterprise of great complexity, due to tremendous medical expertise involved and the inherent complicatedness of natural language. At the beginning of the analysis pipeline is the segmentation of the free text sentences in Chinese into words of appropriate granularity. The dictionary-based and supervised word segmentation algorithms are not applicable in this task because there is no comprehensive medical terminology in Chinese, nor expert-annotated training corpus. Existing unsupervised methods use criteria such as maximum likelihood or mutual information, and they have limited accuracy because the complicatedness of human language cannot be fully characterized by a few principles in information theory or probability. This study proposes a novel theory for Chinese word segmentation that considers characters of a sentence as nodes of an undirected graph, and treats the word segmentation problem as graph partition. With the flexibility in the design of the weight matrix and the ability to incorporate prior knowledge of the target text, the new approach can significantly improve the word segmentation quality and lay the ground for all subsequent medical text analyses.

医疗文本是医生知识与经验的载体。分析医疗文本数据对促进医学发展与提高医疗水平均有重要意义。然而,医疗文本兼具医学的专业性和自然语言的复杂性,其数据分析是一项巨大的挑战和复杂的工程。位于这复杂分析链条第一环的工作是将文本按照合适的粒度分解为词语。由于缺少完整的医学术语表和人工标注过切分位置的训练语料,因此基于字典和监督式学习的分词算法都不能使用。现有的无监督分词方法均以极大似然、互信息等准则进行切分,分词效果不尽如人意。这是因为人类语言的复杂性不可能单一地被一两条概率或信息论优化准则所概括。本研究提出全新的无监督分词理论,将句子中的字视为无向图中的节点,以图分割的视角研究中文分词。通过权重矩阵的灵活设计,并在其中加入目标文本的先验信息,有效提高中文分词效果,为医疗文本数据分析的发展奠定良好基础。

项目摘要

医疗资源稀缺和优质医疗资源分布不均衡是未来很长一段时间我国必须面对的现实。而提炼医疗数据中承载的优秀经验,形成医学人工智能,有望使基层医疗单位的诊疗能力得到有效和广泛的提升。作为医疗大数据的核心成分,以自由文本形式保存的电子病历需要经过有效的医学分词处理才能为下游统计与人工智能任务所利用。而医学的高度专业性使大规模人力标注训练数据训练分词算法缺乏可行性。为解决这一中文医学文本分析中的基础问题,本项目提出了基于图分割理论的无监督多粒度医学分词和术语提取方法。通过将待切分的文本中的每个字视为节点构建带权重的无向图,从未标注的电子病历数据库中通过统计ngram频率等基础统计量获得图边的权重,通过图分割算法实现无监督分词。同时,通过控制子图的数量可实现分词粒度的选择。本项目还研究了多种将行业基础词典和先验知识融入权重矩阵的设计方案,实现了对先验知识的有效利用。算法实现层面,本项目对算法进行了多方面优化,包括针对拉普拉斯矩阵的三对角形式的谱分解重写了快速图分割算法,针对k-means聚类的不稳定性和分词问题的特殊约束定制了特殊算法,针对全粒度分词编写了动态规划快速算法,最终使全粒度分词可以以接近与字典式分词的实时速度高速运行。本项目通过与江苏卫健委合作,在全省级电子病历数据上训练了模型,并聘请医学专业人员标注了大量评测数据,对模型有效性进行了多方位测试并于同类模型进行了广泛对比。对比测试证明,研究提出的无监督算法对比同类监督式算法在电子病历的多粒度分词和术语提取效率上有巨大优势。算法目前已部署在北京协和医院信息中心,利用全院电子病历数据进行术语提取工作,为进一步建立中文医学术语系统奠定了技术基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

俞声的其他基金

相似国自然基金

1

无监督分词及词性归纳联合方法研究

批准号:61303105
批准年份:2013
负责人:王函石
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目
2

医疗文本大数据分析中的统计学模型和方法

批准号:11771242
批准年份:2017
负责人:邓柯
学科分类:A0403
资助金额:48.00
项目类别:面上项目
3

大数据环境下基于特征本体学习的无监督文本分类方法研究

批准号:71571064
批准年份:2015
负责人:李岳峰
学科分类:G0112
资助金额:48.00
项目类别:面上项目
4

无指导汉语文本挖掘的统计模型和统计推断

批准号:11401338
批准年份:2014
负责人:邓柯
学科分类:A0403
资助金额:22.00
项目类别:青年科学基金项目