The study aims to explore the common key data mining technology for TCM clincial data analysis in the real world setting based on the comparative effectiveness research (CER) strategy. The study order is to tackle the inconsistency of TCM clinical data and sample insufficiency in clinical trials, so that an efficacy evaluation model based on small sample for effectiveness assessment can be established. In detail, some high quality clinical data on acupuncture for cervical spondylosis neck pain will be selected as training sample for developing data mining algorithms. The study will focus on data completeness and on knowledge discovery based on existing data. The data mining technology and research methods for real world study (RWS) will be used, including the algorithms such as principle component analysis with kernel optimization, local learning based on kernel-as-similarity. The clinical data originating from real-world practice under the framework of traditional Chinese medical theories and personalized syndrome differentiation will be analyzed by data mining methods such asassociation rules, significant sample similarity learning, and K nearest neighbor (kNN) model. By conducting the above research, a machine learning model for efficacy assessment based on small sample can be founded, in which the clinical data can be recorded in a standardized form. The model will be hopefully used to precisely predict the overall efficacy parameters with small samples. Meanwhile, this study also explore to found a common paradigm for the record and analysis of real-world data of Chinese and integrative medicine based on CER strategy, and it can serve as reference for the application of machine learning theories to real-world clinical data analysis of Chinese and integrative medicine.
遵循实效比较研究(CER)设计策略,探索真实临床条件下的中医临床数据挖掘共性关键技术。针对中医临床研究数据的不一致性和样本含量不足等问题,研究如何利用小样本数据集建立疾病疗效评估模型,选择研究基础较好的针灸治疗颈椎病临床诊疗数据为载体,以临床诊疗数据的完备性和基于现有病例数据的知识发现为主要研究方向,运用机器学习技术和研究方法,重点应用主成份分析的核优化方法和基于相似度的本地学习算法建立理论模型,开展以中医辨证论治为基础的中医临床诊疗数据关联度分析、基于显著病例样本相似性学习的临床诊疗模型、基于近邻病例的k 近邻评估模型等三个方向的研究,实现临床证治疗效指标的统一化表示、建立疾病疗效评估的小样本学习模型的目标,达到利用小样本临床数据准确估计整体疗效参数的目标。通过上述工作,探讨CER循证医学数据库关键技术,探索基于机器学习理论的中医和中西结合医学真实世界临床数据分析共性技术规范。
本研究应用人工神经网络模型和决策树模型对从随机对照试验获取的数据进行挖掘分析,构建总体疗效参数指标OPROO(Overall PRO Outcome)作为疗效评价的主要参数,应用多目标排序算法(Non-Dominated Sort,NDS)对NPQ评分、McGill疼痛评分和SF-36得出的8个维度评分的多次测量值进行二次挖掘分析。.数据挖掘结果提示,应用局部近邻学习(Local Learning)算法后,数据挖掘模型对数据的判断能力较未使用Local Learning的模型得到提高,且判断正确率受学习样本量大小的影响不大。在运用了多目标排序算法(NDS)对数据的代表性进行排序和筛选后,再引入核决策树(KDT)模型进行数据判断,其正确率不会随学习数据集样本量的增加而增加,而是与学习数据集的质量有关。在应用相似性学习(Similarity Learning)后,KDT模型的判断准确率有所提高,但当集成学习器的数量达到一定时,数据挖掘模型的判断正确率则不会再增长。.研究结果表明,影响数据挖掘模型对疗效判断正确率的主要因素不是样本量,而是病例数据的整体质量(如数据完整性、评价准确性等),通过建立数据挖掘模型,以高质量的临床数据作为数据训练集,可较准确估算和评价总体疗效数据的特征规律,从而估计针灸治疗颈椎病的总体综合疗效。.在经大样本疗效数据集训练后,数据挖掘模型对疗效判别能力得到提高,能够在根据临床实际情况设定的疗效评价标准下,较准确地判断小样本临床试验病例的疗效。本研究实现了临床证治疗效指标的统一化标识,建立疾病疗效评估的小样本学习模型,达到利用小样本临床数据准确估计整体疗效参数的目标。完成了循证医学数据库的数据检索与信息提取关键技术。.结论:本研究引入CER研究策略和RWS研究模式,构建了中医和中西医结合的临床电子化注册平台,为今后RWS研究提供了数据挖掘方法学技术支撑。并且,本研究应用多种数据挖掘方法对平台上的数据进行分析并建模,克服了样本量不足可能造成的结果偏倚,建立了有效的期中分析方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
卫生系统韧性研究概况及其展望
中外学术论文与期刊的宏观差距分析及改进建议
湖北某地新生儿神经管畸形的病例对照研究
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
基于真实世界中医临床数据的原发性肝癌循证证据构建研究
真实世界大数据驱动的全景式健康医疗管理与服务模式研究
基于轨迹数据的用户意图挖掘关键技术研究
基于云计算的海量数据挖掘关键技术研究