面向基因数据的深度特征选择关键技术研究

基本信息
批准号:61806105
项目类别:青年科学基金项目
资助金额:27.00
负责人:赵龙
学科分类:
依托单位:齐鲁工业大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:张维玉,姜林枫,王春鹏,王薇,蒋晓琦,高欣明,郝峰
关键词:
深度学习局部结构基因特征选择特征重要性度量数据场
结项摘要

The existing gene feature selection algorithm focuses on the spatial distribution of gene characteristics, the implicit relationship between features, the local distribution of characteristics, and the inherent distribution rule of characteristics. Therefore, it is necessary to positively propose the importance of new technology learning gene characteristics, extract the implicit information between gene features and describe the local distribution rule of features, in order to select the feature subset that can reflect the essence of gene data and improve classification accuracy. Specifically, 1) aiming at the characteristics of high-dimensional and small samples of genetic data, we will describe the spatial distribution of samples through data field, and measure the importance of features through the selection of potential function and quality measure strategy. 2) in view of the lack of the existing feature selection algorithms based on deep learning, a new depth feature selection model is proposed. 3) for genetic samples of class imbalance formed on feature selection challenge, quasi relationship between spatial relations between the sample in the local area and different spatial distribution characteristics of the formation of the feature subset. This project is importance by data field and depth of network further measure the genetic characteristics, analysis of the hidden relationship between genes, eye generating optimal feature subset strategy, lay the foundation for further analysis and application of genetic data.

现有的基因特征选择算法针对基因特征本身的空间分布、特征之间的隐含关系及特征局部分布和特征的内在分布规律研究较少。为此有必要积极地提出新技术学习基因特征的重要性,提取基因特征间的隐含信息和描述特征的局部分布规律,以期选择出更能反映基因数据本质的特征子集,提高分类精度。具体为:1)针对基因数据高维小样本的特点,拟通过数据场描述样本的空间分布,通过势函数和质量度量策略的选择度量特征的重要性。2) 针对现有基于深度学习的特征选择算法的缺乏,拟提出新的深度特征选择模型。3)针对基因样本类别不平衡对特征选择所形成的挑战,拟通过局部区域内样本之间的空间关系和不同特征空间分布之间的关系形成最优特征子集。本项目拟通过数据场和深度网络进一步衡量基因特征的重要性,分析基因间的隐含关系,眼生成最优特征子集的策略,为基因数据的进一步分析和应用打下基础。

项目摘要

现有的基因特征选择算法针对基因特征本身的空间分布、特征之间的隐含关系及特征局部.分布和特征的内在分布规律研究较少。为此项目组提出新技术学习基因特征的重要性,.提取基因特征间的隐含信息和描述特征的局部分布规律,以期选择出更能反映基因数据本质的特征子集,提高分类精度。主要贡献为:.1)针对基因数据高维小样本的特点,通过数据场描述样本的空间分布,通过势函数和质量度量策略的选择度量特征的重要性。.2)针对现有的基因特征选择算法多为单一条件的特征选择,很少考虑基因特征提取且多数采用存在已久的神经网络,具有较低的分类精度。提出新的特征选择模型,在特征选择的基础上,利用深度学习提取基因的隐含特征,进而提高分类器的精度。.3)针对现有的基因特征提取大多采用正频繁序列模式,且模式长度固定的不足,开创性提出在提取基因特征时,引入负序列模式的概念,并且采用不等长的序列进行基因特征提取,在物种相似性度量和基因负序列模式路径匹配挖掘中取得了较好的效果。.4)针对基因数据集中缺失数据和不完整数据在实际应用中很常见。项目组称之为“高度不完整标记”问题。这种标记的不完整性严重损害了基因数据的固有结构,掩盖了基因序列之间的真实相关性。项目组提出了一种新的结构化特征选择模型,以同时识别最具鉴别力的特征和恢复高度不完整的标记。特征选择以标记结构重构为指导,通过特征空间的结构转换来恢复高度不完整的标记。.5)针对现有的深度基因特征选择策略主要面向单个基因组,项目组整合基因表达(Exp)数据与拷贝数突变(CNV)数据,之后我们采用多种算法对整合的基因数据进行特征选择和特征提取,获得特征子集,最后将特征选择后的特征子集导入神经网络,进行特征分类,取得了较好的效果。. 在此基础上,项目组整合了多个基因组数据集,并对相应的数据进行了预处理,同时对于深度神经网络的架构和多模态数据应用方面取得了一定的研究进展,这些均为下一步研究和实际应用打好了基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
4

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

赵龙的其他基金

批准号:21703086
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:41274038
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:11875138
批准年份:2018
资助金额:66.00
项目类别:面上项目
批准号:61601044
批准年份:2016
资助金额:21.00
项目类别:青年科学基金项目
批准号:51803015
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:41574024
批准年份:2015
资助金额:70.00
项目类别:面上项目
批准号:41301342
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:41874034
批准年份:2018
资助金额:63.00
项目类别:面上项目
批准号:41805133
批准年份:2018
资助金额:26.50
项目类别:青年科学基金项目
批准号:81800601
批准年份:2018
资助金额:20.00
项目类别:青年科学基金项目
批准号:11475112
批准年份:2014
资助金额:98.00
项目类别:面上项目
批准号:31900678
批准年份:2019
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

面向文本挖掘的特征选择关键问题研究

批准号:61163034
批准年份:2011
负责人:裴志利
学科分类:F0605
资助金额:49.00
项目类别:地区科学基金项目
2

面向大数据的半监督粗糙特征选择高效算法研究

批准号:61402272
批准年份:2014
负责人:王锋
学科分类:F0607
资助金额:26.00
项目类别:青年科学基金项目
3

面向大数据备份的重复数据删除关键技术研究

批准号:61402061
批准年份:2014
负责人:谭玉娟
学科分类:F0204
资助金额:26.00
项目类别:青年科学基金项目
4

面向通用数据库的数据安全保护关键技术研究

批准号:U1836115
批准年份:2018
负责人:沈剑
学科分类:F0206
资助金额:67.00
项目类别:联合基金项目