Genomic island detection is very important for the study of molecular mechanism and control of drug resistance of pathogenic bacteria. From the perspective of information processing, the bottleneck of establishing the detection model is lack of the extraction, fusion and selection of multiple information including the component and structural features, the design of efficient screening scheme and boundary identification. To solve the above problems, this project starting from drug resistance of pathogenic bacteria mainly studies on 1) the multivariate statistical method for optimizing the length of the window and extracting the multiple features of the genome; 2) the large scale feature selection algorithm and the small scale hypothesis test for the quantitative analysis of the enrichment information of the regional host; 3) a multi-scale recognition model of genomic islands that is constructed based on the high order moments of genome features and multi-scale recognition; 4) boundary identification method of genomic island using GC content to identify breakpoints and Markov entropy to evaluate the differences of the regions near the breakpoints. From statistics and information aspects, this project will use the test data and independent sample data to test and correct the model. The genomic island detection model in this project not only provides important basis for the study of molecular mechanism and control of drug resistance of pathogenic bacteria, but also extends the study to other related antibiotic resistant bacteria.
基因组岛识别研究对耐药性条件致病菌的播散分子机制和控制具有重要意义。从信息处理的角度,研究的瓶颈在于缺乏有效的手段提取、融合、挑选包括组分特征与结构特征的多重信息,设计高效的筛选方案与边界识别方法。针对这些问题,本项目从耐药性条件致病菌入手,重点研究1)采用多元统计方法,优化窗口长度,系统地提取基因组的多重特征;2)设计大尺度的特征挑选算法,结合小尺度的统计推断,实现区域宿主富集的定量分析;3)利用基因组特征的高阶矩,设计多尺度分割算法,构建基因组岛的多尺度识别模型;4)根据GC含量识别间断点,利用马尔科夫熵评价区域差异,实现基因组岛的边界识别。项目将利用测试数据、独立样本数据,从统计和信息学两方面对算法进行验证和修正。本研究解决的信息处理问题,不但为耐药条件致病菌的分子机制研究提供了帮助,有助于控制耐药菌株的临床播散,而且还可以推广到其它耐药细菌的研究。
基因组岛识别研究对耐药性条件致病菌的播散分子机制和控制具有重要意义。从信息处理的角度,研究的瓶颈在于缺乏有效的手段提取、融合、挑选包括组分特征与结构特征的多重信息,设计高效的筛选方案与边界识别方法。针对这些问题,本项目从耐药性条件致病菌入手,本项目研究1)研究基因组期望特征与窗口长度的定量关系,系统分析了九类基因组特征,结果表明长度1kb的非重叠窗口和四核苷酸可以有效捕获水平转移基因特征;2)设计了基于窗口方差和置信区间的定量计算方法,发现较小的置信区间可以提取更多宿主的保守特征;设计了基于峰度的基因组特征挑选方法,提高了基因组岛识别效率,AUC值比其它方法至少高出5%,克服了特征挑选对数据依赖; 3)本项目通过大尺度特征挑选,结合小尺度t检验量化了序列片段的组成差异;根据序列特征的差异,采用多尺度分割算法预测包含多片段的基因组岛;设计了基于马尔科夫熵和GC含量的边界识别算法,精确识别了预测的基因组岛。结果表明,本项目提出的预测算法可以准确预测到基因组岛,所预测的基因组岛长度与实际更加接近;4)根据基因组岛的数据类型,分析了内容之间的关联;利用关系型数据库设计了基因组岛数据的存储模型;由于基因组岛数据的特殊性,利用冗余备份和水平拆分的思想,优化了数据库的访问效率;根据基因组岛的展示内容,采用了分层展示策略,设计了基因组岛数据的展示方案;根据现有的基因组岛识别方法的特点,系统整合了识别算法,搭建了基因组岛的识别平台;针对科研人员的需求,本文对基因组岛数据库以及分析平台进行了Web发布,实现了基因组岛数据的在线浏览、在线识别和在线分析。本项目研究工作,不仅解决的信息处理问题,还为耐药条件致病菌的分子机制研究提供了帮助,有助于控制耐药菌株的临床播散,而且还可以推广到其它耐药细菌的研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
空间多尺度条件下的多磁偶极子目标定位和识别反演方法
基于敏感细胞识别的食源性致病菌毒力分析模型研究
应用商空间理论改进福岛模型的图象识别能力
基于多尺度分子模拟技术和复杂网络分析的丙型肝炎病毒耐药性机理研究及耐药性预测模型的构建