The existing gene feature selection algorithm focuses on the spatial distribution of gene characteristics, the implicit relationship between features, the local distribution of characteristics, and the inherent distribution rule of characteristics. Therefore, it is necessary to positively propose the importance of new technology learning gene characteristics, extract the implicit information between gene features and describe the local distribution rule of features, in order to select the feature subset that can reflect the essence of gene data and improve classification accuracy. Specifically, 1) aiming at the characteristics of high-dimensional and small samples of genetic data, we will describe the spatial distribution of samples through data field, and measure the importance of features through the selection of potential function and quality measure strategy. 2) in view of the lack of the existing feature selection algorithms based on deep learning, a new depth feature selection model is proposed. 3) for genetic samples of class imbalance formed on feature selection challenge, quasi relationship between spatial relations between the sample in the local area and different spatial distribution characteristics of the formation of the feature subset. This project is importance by data field and depth of network further measure the genetic characteristics, analysis of the hidden relationship between genes, eye generating optimal feature subset strategy, lay the foundation for further analysis and application of genetic data.
现有的基因特征选择算法针对基因特征本身的空间分布、特征之间的隐含关系及特征局部分布和特征的内在分布规律研究较少。为此有必要积极地提出新技术学习基因特征的重要性,提取基因特征间的隐含信息和描述特征的局部分布规律,以期选择出更能反映基因数据本质的特征子集,提高分类精度。具体为:1)针对基因数据高维小样本的特点,拟通过数据场描述样本的空间分布,通过势函数和质量度量策略的选择度量特征的重要性。2) 针对现有基于深度学习的特征选择算法的缺乏,拟提出新的深度特征选择模型。3)针对基因样本类别不平衡对特征选择所形成的挑战,拟通过局部区域内样本之间的空间关系和不同特征空间分布之间的关系形成最优特征子集。本项目拟通过数据场和深度网络进一步衡量基因特征的重要性,分析基因间的隐含关系,眼生成最优特征子集的策略,为基因数据的进一步分析和应用打下基础。
现有的基因特征选择算法针对基因特征本身的空间分布、特征之间的隐含关系及特征局部.分布和特征的内在分布规律研究较少。为此项目组提出新技术学习基因特征的重要性,.提取基因特征间的隐含信息和描述特征的局部分布规律,以期选择出更能反映基因数据本质的特征子集,提高分类精度。主要贡献为:.1)针对基因数据高维小样本的特点,通过数据场描述样本的空间分布,通过势函数和质量度量策略的选择度量特征的重要性。.2)针对现有的基因特征选择算法多为单一条件的特征选择,很少考虑基因特征提取且多数采用存在已久的神经网络,具有较低的分类精度。提出新的特征选择模型,在特征选择的基础上,利用深度学习提取基因的隐含特征,进而提高分类器的精度。.3)针对现有的基因特征提取大多采用正频繁序列模式,且模式长度固定的不足,开创性提出在提取基因特征时,引入负序列模式的概念,并且采用不等长的序列进行基因特征提取,在物种相似性度量和基因负序列模式路径匹配挖掘中取得了较好的效果。.4)针对基因数据集中缺失数据和不完整数据在实际应用中很常见。项目组称之为“高度不完整标记”问题。这种标记的不完整性严重损害了基因数据的固有结构,掩盖了基因序列之间的真实相关性。项目组提出了一种新的结构化特征选择模型,以同时识别最具鉴别力的特征和恢复高度不完整的标记。特征选择以标记结构重构为指导,通过特征空间的结构转换来恢复高度不完整的标记。.5)针对现有的深度基因特征选择策略主要面向单个基因组,项目组整合基因表达(Exp)数据与拷贝数突变(CNV)数据,之后我们采用多种算法对整合的基因数据进行特征选择和特征提取,获得特征子集,最后将特征选择后的特征子集导入神经网络,进行特征分类,取得了较好的效果。. 在此基础上,项目组整合了多个基因组数据集,并对相应的数据进行了预处理,同时对于深度神经网络的架构和多模态数据应用方面取得了一定的研究进展,这些均为下一步研究和实际应用打好了基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向文本挖掘的特征选择关键问题研究
面向大数据的半监督粗糙特征选择高效算法研究
面向大数据备份的重复数据删除关键技术研究
面向通用数据库的数据安全保护关键技术研究