基于HBV病毒感染人群HCC大规模医疗文本信息抽提与时间序列分析方法研究

基本信息
批准号:81573023
项目类别:面上项目
资助金额:57.00
负责人:张晓艳
学科分类:
依托单位:同济大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:王海芸,张韡德,朱小东,李作峰,施雅慧,胡滨洋
关键词:
肝细胞癌时间序列自然语言处理乙型肝炎病毒感染
结项摘要

Hepatocellular carcinoma (HCC) is the most common pathological type of primary liver cancer. The infection of HBV not only influences the incidence of HCC, but also the metastasis and postoperative recurrence probabilities. Related studies so far focused on the correlation between the preoperative HBV infection baseline and the prognosis, ignoring the dynamic changes over time. This study propose a pipeline to analyze large amount of clinical records: Firstly, by employing big data analysis methods and natural language processing (NLP) technology, laboratory data including HBV antigen antibody serology drops and DNA replication measurement, medicine history and other HCC related information will be extracted from the unstructured free text, along with their time attributes, forming the time series and a dynamic database. Secondly, data mining and other analysis approaches are applied on the dynamic database to find out the critical prognosis factors and other significant patterns. Thirdly, bioinformatical analysis on genomic data facilitates the further molecular mechanism exploration and hypothesis evaluation. Ultimately, a digital medical model will be built. As it provides theoretical foundation and clinical decision support to the postoperative treatment of HCC(HBV+), the personalization and accuracy of clinical practice are supposed to be highly improved.

肝细胞肝癌(HCC)是原发性肝癌最常见的病理类型,HBV背景是HCC发病的重要影响因子之一,更是影响HCC手术切除后转移复发的关键影响因子之一。目前对于HCC术后转移复发的研究多基于患者术前HBV感染的基线状态与患者术后预后的关系,忽略了术后HBV感染的动态变化。本课题拟针对大规模HBV背景的HCC患者的临床医疗文档通过运用大数据研究的思路、结合自然语言处理等技术,对患者治疗的文本记录进行数据抽提,并整合患者的实验室检查数据构建HCC患者动态数据库,构建相关的时间序列,完整分析患者手术前后HBV抗原抗体血清学滴度及HBV-DNA复制情况变化、抗病毒用药史、术后其他治疗的时间序列对于患者预后的影响。并结合基因组数据的生物信息学分析,进一步探寻各时间序列的分子生物学机理。整合分析结果,构建HBV背景的HCC患者手术切除后治疗的精准数字医疗模型,为术后治疗的个性化提供理论依据和决策支持。

项目摘要

肝细胞肝癌(HCC)是临床上最常见的恶性肿瘤之一。乙型肝炎病毒(HBV)的感染是HCC的重要危险因素,也是HCC转移复发的主要研究对象之一。目前的研究忽略了患者整个疾病过程中的动态变化情况。本项目在前期工作基础上,开展了针对临床医疗文档的自然语言分析研究:. 1)在方法层面,进行了基于规则的医学信息抽取(F1=96.33%)、基于深度学习的医学命名实体识别(F1=93.41%)与基于层次聚类的临床文档语义类别研究(一致性分数为0.992);提出Complex-Simple文本分块模型与审核标记“Review Flags”机制。在数据层面,建立了HCC语料库与临床标准术语集,为临床数据存储及利用提供了标准化模板。在可视化层面,开发了病理报告与超声报告一致性评估系统、临床文档分类系统与基因型表型知识库。. 2)建立了HCC时间序列数据转换级联生存路径模型,研究发现在时间切片1上,关键变量为AFPGT400(AFP>400)。在时间切片2上,对于AFP<400的患者,关键变量为TBLTstrictly_decreasing,而对于AFP>400的患者,则为numberandsize1(肝脏病变数量和大小)。且在治疗后第一次随访期间,若TBLT与诊断期间的值相比严重下降,则预后将显著恶化。同时,研究进一步分析了HCC表型数据项和免疫组化因子间的关联性,发现AFP的阳性结果与癌栓有显著关联性(P<0.005)。. 3)对HBV相关HCC时间序列数据进行了部分分子机理研究。在突变水平上通过文本挖掘,发现HBV在人肝癌组织中染色体5、8、10和19具有整合偏好性,同时也偏向高频整合到一些基因的外显子和启动子上,如TERT、FAR2和MLL4。在表达水平上筛选出1343个“肝炎-肝硬化-肝癌”中差异表达基因,发现肝硬化和肝癌中持续低表达基因主要与代谢相关,持续高表达基因与细胞循环、迁移相关,肝硬化中特异高表达基因主要涉及免疫相关通路,而肝癌中特异高表达基因与细胞分裂、DNA复制等生物过程相关。. 本项目自建了一系列临床文档信息抽取、识别与分类方法,构建了多个HCC动态数据库,并通过对多层次的时间序列数据分析得到影响HCC预后的因素,为HBV背景的HCC患者的精准医疗提供一定的理论依据和决策支持。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
2

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
3

时间序列分析与机器学习方法在预测肺结核发病趋势中的应用

时间序列分析与机器学习方法在预测肺结核发病趋势中的应用

DOI:
发表时间:2020
4

固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响

固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响

DOI:10.11868/j.issn.1001-4381.2018.001042
发表时间:2019
5

黄土高原生物结皮形成过程中土壤胞外酶活性及其化学计量变化特征

黄土高原生物结皮形成过程中土壤胞外酶活性及其化学计量变化特征

DOI:10.13866/j.azr.2022.02.13
发表时间:2022

张晓艳的其他基金

批准号:30040010
批准年份:2000
资助金额:5.00
项目类别:专项基金项目
批准号:21506089
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:30671885
批准年份:2006
资助金额:8.00
项目类别:面上项目
批准号:51302285
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:30872266
批准年份:2008
资助金额:33.00
项目类别:面上项目
批准号:31900139
批准年份:2019
资助金额:24.00
项目类别:青年科学基金项目
批准号:81171502
批准年份:2011
资助金额:58.00
项目类别:面上项目
批准号:81573048
批准年份:2015
资助金额:60.00
项目类别:面上项目
批准号:81803971
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:11302271
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:41601262
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

大规模非平稳多元混沌时间序列分析与建模研究

批准号:61374154
批准年份:2013
负责人:韩敏
学科分类:F0303
资助金额:78.00
项目类别:面上项目
2

官员变更、信息环境变化与分析师报告文本信息:基于机器学习方法的文本分析研究

批准号:71902087
批准年份:2019
负责人:陈钦源
学科分类:G0205
资助金额:19.00
项目类别:青年科学基金项目
3

网络金融信息流时间序列分析

批准号:70871001
批准年份:2008
负责人:梁循
学科分类:G0114
资助金额:24.00
项目类别:面上项目
4

基于复杂网络方法的气候时间序列分析

批准号:11305062
批准年份:2013
负责人:邹勇
学科分类:A2503
资助金额:22.00
项目类别:青年科学基金项目