The variation of genes in human DNA series leads to diseases. How to find the important genes and diagnose the case according to the variation of genes is the urgent focus problem. Many machine learning methods have been used as the effective data mining tools for bioinformatics data. But the traditional methods mostly assumed that the features are independent, which cannot resolve the realistic interaction problem among genes. Fuzzy integral is a kind of nonlinear fusion function based on fuzzy measures. It can describe the degree of interaction among features very well. So, fuzzy integral has strong superiority in DNA data mining. This project discard the monotonicity of traditional fuzzy measure and proposed two kind of generalized fuzzy integrals- - -multiple fuzzy integral and polynomial fuzzy integral which are applied to HBV data mining. We intend to use Genetic Algorithm combined with L1-Norm to determine the values of fuzzy measure and justify the affection degree of corresponding genes or gene combinations for diagnosis to find the important gene markers. The patient case can be diagnosed according to the variation of genes or gene combinations. The results showed that the accuracy of diagnosis has been improved greatly compared to traditional methods. This research will not only promote actively the development of theoretical and application research of fuzzy integral, but also provide new method and technology for data mining in bioinformatics information. So, this project has important significance in theory and practice.
人类DNA序列中基因的变异可能导致疾病,如何查找影响疾病的重要基因位以及根据基因的变异诊断病例是亟待解决的问题。许多机器学习方法已用作生物信息数据挖掘的有效工具,但传统方法多是假设特征相互独立,难以解决现实存在的基因位之间交互问题。而模糊积分是基于模糊测度的一种非线性融合函数,可以有效描述特征交互程度。因此模糊积分被用于DNA数据挖掘具有较强优势。本项目破除传统模糊测度单调性的限制,基于符号型模糊测度提出两种扩展模糊积分-多重模糊积分和多项式模糊积分,并将其应用到乙肝病人DNA数据挖掘中。拟采用遗传算法和L1-Norm相结合的方法确定模糊测度值,判断相应的基因及基因组合对诊断结果的影响程度,发现DNA序列的重要基因位,根据基因以及基因组合的变异来诊断个案病例,预结果表明诊断正确率比传统方法大有提升。此研究对模糊积分的理论和应用研究有着积极的推动作用,同时为生物信息领域研究提供新的技术支持。
人类DNA序列基因的变异可能导致疾病,如何查找影响疾病的重要基因位以及根据基因的变异诊断病例是亟待解决的问题。许多机器学习方法已用作生物信息数据挖掘的有效工具,但传统方法多是假设特征相互独立,难以解决现实存在的基因位之间交互问题。而模糊积分是基于模糊测度的一种非线性融合函数,可以有效描述特征交互程度,因此选用模糊积分作为DNA数据挖掘工具具有较强优势。. 本项目破除传统模糊测度单调性的限制,基于符号型模糊测度提出两种扩展模糊积分-深度模糊积分,多项式模糊积分和高斯模糊积分,并将其应用到乙肝病毒HBV数据挖掘中。重要结果如下:.1、为了解决模糊测度求解的时间复杂度会随着特征个数呈级数增长的问题,采用了遗传算法和L1-Norm相结合的方法来确定模糊测度值,并依此判断相应的基因以及基因组合对诊断结果的影响程度,发现DNA序列的重要基因位,此项结果已经申报发明专利并已公开;.2、我们提出的深度模糊积分是从纵度上对传统模糊积分进行扩展,解决传统模糊积分在将数据投影至一维空间仍存在交叠现象的问题,继续对数据进行深度拉伸,旨在将交叠的数据拉到两个不同的空间,进而可以轻松分类;提出的高斯模糊积分是将传统模糊积分的线性被积函数扩展为高斯函数,以便能够覆盖大多数的数据点,从而提高分类精度;这两种新型的模糊积分在经过经典数据库验证后,都应用到了HBV基因序列数据库,并取得了较满意的结果;.3、根据重要基因以及基因组合的变异来诊断个案病例,实验结果说明我们提出的深度模糊积分,多项式模糊积分和高斯模糊积分方法的诊断正确率比传统方法大有提升,此两项研究成果已经在SCI检索的期刊上公开发表论文,并申报了一项软件著作权;.4、构建了一个软件平台,专门用于对基因序列数据进行重要基因追踪,已经获批一项软件著作权;.5、所提出的方法同时扩展至其他应用领域。.此项研究对模糊积分的理论和应用研究有着积极的推动作用,同时为生物信息领域研究提供技术支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
疏勒河源高寒草甸土壤微生物生物量碳氮变化特征
基于优化模糊信息粒化的时间序列分析和数据挖掘
基于知识指导和模糊信息粒化的时序大数据分析和挖掘
基于模糊粗糙集的概率数据挖掘方法研究
生物信息学中的数据挖掘技术