To solve the challenging task of massive scientific data processing will promote the development of machine learning techniques. Medical records with multi-syndrome in traditional Chinese medicine (TCM) are multi-label data. Existing multi-label learning methods do not consider the characteristics of the TCM diagnosis data: there are four kinds of symptoms like watching, listening, inquiring and pulse taking; there exists imbalance among the labels, there are fruitful theories for diagnosis which are not utilized in modeling. This project plan to develop novel multi-label learning techniques from the typical applications of multi-syndrome medical diagnosis data modeling: the first is to develop multi-label information fusion methods for four different symptom collection; the second is to invent imbalance multi-label learning methods embedded specific base learner; the third is to study multi-label learning methods intergrating prior knowledge from medical diagnosis theory. Novel algorithms will be applied to hypertension and insonoia data sets and other public scientific data sets. This study aims to improve modeling accuray and provide tools and reference for other scientific data analysis.
解决科学领域大规模数据分析的挑战性任务将带动机器学习的发展。多证候中医诊断病例是典型的多标记数据。已有多标记建模方法欠缺考虑中医诊断数据的特点:特征由望闻问切四种来源的症状组成、各标记在病例中出现频次严重不均衡、丰富的医学理论未在建模中有效利用。本项目计划从多证侯中医诊断数据建模的典型应用出发,研究新型的多标记数据建模方法:一是基于集成学习的望闻问切四诊症状融合建模方法;二是嵌入特定基分类器的标记不均衡克服建模方法;三是提炼中医诊断理论为规则和约束的先验知识利用建模方法。新方法将在高血压和失眠等多证候中医诊断数据和其它科学领域的公开数据上进行验证,旨在提高特定医学领域任务的建模效果,也为其它科学领域的数据分析提供工具和参考。
已有多标记类型的生物医学数据建模缺乏对领域知识和数据特点的充分考虑,如中医诊断数据的特征由望闻问切四种来源的症状组成、各标记在病例中出现频次严重不均衡、丰富的医学理论未在建模中有效利用。本项目针对多标记医学诊断数据建模开展方法研究:①以高血压为例研究中医四诊和多证候数据采集与数据库建设;②多标记学习新算法的设计,提出了随机选择多标记学习算法、取样分类器链集成算法、基于全局密度融合映射特征的多标记学习算法;③适于多标记学习和领域问题的特征构建、选择、压缩算法的设计,针对于中医临床非结构化文本,提出基于Word2vec的文本特征构建方法,提出过滤式和监督式特征选择算法,提出IPLS算法进行流数据压缩;④适于生物医学数据特点的缺失数据填充算法的研究,提出了CIOM和tri-imputation算法;⑤在具体生物医学数据上的应用,如中医面诊、中医临床数据、蛋白组学等数据上的建模分析,提高已有问题和数据的建模精度。项目组在IEEE/ACM TCBB、IEEE TNB,PRJ,Scientific Reports,PLOS One、BMC等国内外权威刊物上发表论文47篇,其中SCI收录20篇,EI收录15篇。含受邀在ECAM、Frontier of Medicine等刊物撰写综述4篇、国外著作撰写1章次。成果应用到中医馆健康信息平台和上海金灯台中医药健康大数据分析挖掘平台,获得软件著作权2项。研究团队获得中国中医科学院十二五科技创新突出贡献奖。项目研究成果为机器学习领域提供丰富的有明确具体需求的研究实例,促进应用驱动的机器学习研究进展;同时解决生物医学领域多种具有数据特色和领域知识的多标记数据建模问题,支撑相关领域发展;研发的软件平台为中医诊断建模提供方法学支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
拥堵路网交通流均衡分配模型
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
基于粒计算的多模态多标记数据分类建模研究
基于多模态医学图像数据的抑郁症特征提取与辅助诊断研究
多标记文本数据流分类方法研究
基于多源实测数据的火焰建模方法研究