多标记医学诊断数据建模方法的研究

基本信息
批准号:61273305
项目类别:面上项目
资助金额:82.00
负责人:李国正
学科分类:
依托单位:中国中医科学院
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:尤鸣宇,欧爱华,何泽慧,王晓,刘家铭,赵瑞玮,原嘉民
关键词:
多标记学习不均衡学习医学诊断
结项摘要

To solve the challenging task of massive scientific data processing will promote the development of machine learning techniques. Medical records with multi-syndrome in traditional Chinese medicine (TCM) are multi-label data. Existing multi-label learning methods do not consider the characteristics of the TCM diagnosis data: there are four kinds of symptoms like watching, listening, inquiring and pulse taking; there exists imbalance among the labels, there are fruitful theories for diagnosis which are not utilized in modeling. This project plan to develop novel multi-label learning techniques from the typical applications of multi-syndrome medical diagnosis data modeling: the first is to develop multi-label information fusion methods for four different symptom collection; the second is to invent imbalance multi-label learning methods embedded specific base learner; the third is to study multi-label learning methods intergrating prior knowledge from medical diagnosis theory. Novel algorithms will be applied to hypertension and insonoia data sets and other public scientific data sets. This study aims to improve modeling accuray and provide tools and reference for other scientific data analysis.

解决科学领域大规模数据分析的挑战性任务将带动机器学习的发展。多证候中医诊断病例是典型的多标记数据。已有多标记建模方法欠缺考虑中医诊断数据的特点:特征由望闻问切四种来源的症状组成、各标记在病例中出现频次严重不均衡、丰富的医学理论未在建模中有效利用。本项目计划从多证侯中医诊断数据建模的典型应用出发,研究新型的多标记数据建模方法:一是基于集成学习的望闻问切四诊症状融合建模方法;二是嵌入特定基分类器的标记不均衡克服建模方法;三是提炼中医诊断理论为规则和约束的先验知识利用建模方法。新方法将在高血压和失眠等多证候中医诊断数据和其它科学领域的公开数据上进行验证,旨在提高特定医学领域任务的建模效果,也为其它科学领域的数据分析提供工具和参考。

项目摘要

已有多标记类型的生物医学数据建模缺乏对领域知识和数据特点的充分考虑,如中医诊断数据的特征由望闻问切四种来源的症状组成、各标记在病例中出现频次严重不均衡、丰富的医学理论未在建模中有效利用。本项目针对多标记医学诊断数据建模开展方法研究:①以高血压为例研究中医四诊和多证候数据采集与数据库建设;②多标记学习新算法的设计,提出了随机选择多标记学习算法、取样分类器链集成算法、基于全局密度融合映射特征的多标记学习算法;③适于多标记学习和领域问题的特征构建、选择、压缩算法的设计,针对于中医临床非结构化文本,提出基于Word2vec的文本特征构建方法,提出过滤式和监督式特征选择算法,提出IPLS算法进行流数据压缩;④适于生物医学数据特点的缺失数据填充算法的研究,提出了CIOM和tri-imputation算法;⑤在具体生物医学数据上的应用,如中医面诊、中医临床数据、蛋白组学等数据上的建模分析,提高已有问题和数据的建模精度。项目组在IEEE/ACM TCBB、IEEE TNB,PRJ,Scientific Reports,PLOS One、BMC等国内外权威刊物上发表论文47篇,其中SCI收录20篇,EI收录15篇。含受邀在ECAM、Frontier of Medicine等刊物撰写综述4篇、国外著作撰写1章次。成果应用到中医馆健康信息平台和上海金灯台中医药健康大数据分析挖掘平台,获得软件著作权2项。研究团队获得中国中医科学院十二五科技创新突出贡献奖。项目研究成果为机器学习领域提供丰富的有明确具体需求的研究实例,促进应用驱动的机器学习研究进展;同时解决生物医学领域多种具有数据特色和领域知识的多标记数据建模问题,支撑相关领域发展;研发的软件平台为中医诊断建模提供方法学支撑。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

DOI:10.3724/ SP.J.1123.2019.04013
发表时间:2019
2

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018

李国正的其他基金

批准号:51505154
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:60873129
批准年份:2008
资助金额:30.00
项目类别:面上项目
批准号:20503015
批准年份:2005
资助金额:24.00
项目类别:青年科学基金项目
批准号:71803006
批准年份:2018
资助金额:18.00
项目类别:青年科学基金项目

相似国自然基金

1

基于粒计算的多模态多标记数据分类建模研究

批准号:61672272
批准年份:2016
负责人:林耀进
学科分类:F0607
资助金额:62.00
项目类别:面上项目
2

基于多模态医学图像数据的抑郁症特征提取与辅助诊断研究

批准号:61571047
批准年份:2015
负责人:邬霞
学科分类:F0125
资助金额:59.00
项目类别:面上项目
3

多标记文本数据流分类方法研究

批准号:61503112
批准年份:2015
负责人:李培培
学科分类:F0603
资助金额:22.00
项目类别:青年科学基金项目
4

基于多源实测数据的火焰建模方法研究

批准号:61173067
批准年份:2011
负责人:朱登明
学科分类:F0209
资助金额:61.00
项目类别:面上项目