面向基因数据的深度特征选择关键技术研究

基本信息

批准号：61806105

项目类别：青年科学基金项目

资助金额：27.00

负责人：赵龙

学科分类：

依托单位：齐鲁工业大学

批准年份：2018

结题年份：2021

起止时间：2019-01-01 - 2021-12-31

项目状态：已结题

项目参与者：张维玉,姜林枫,王春鹏,王薇,蒋晓琦,高欣明,郝峰

关键词：

深度学习局部结构基因特征选择特征重要性度量数据场

结项摘要

The existing gene feature selection algorithm focuses on the spatial distribution of gene characteristics, the implicit relationship between features, the local distribution of characteristics, and the inherent distribution rule of characteristics. Therefore, it is necessary to positively propose the importance of new technology learning gene characteristics, extract the implicit information between gene features and describe the local distribution rule of features, in order to select the feature subset that can reflect the essence of gene data and improve classification accuracy. Specifically, 1) aiming at the characteristics of high-dimensional and small samples of genetic data, we will describe the spatial distribution of samples through data field, and measure the importance of features through the selection of potential function and quality measure strategy. 2) in view of the lack of the existing feature selection algorithms based on deep learning, a new depth feature selection model is proposed. 3) for genetic samples of class imbalance formed on feature selection challenge, quasi relationship between spatial relations between the sample in the local area and different spatial distribution characteristics of the formation of the feature subset. This project is importance by data field and depth of network further measure the genetic characteristics, analysis of the hidden relationship between genes, eye generating optimal feature subset strategy, lay the foundation for further analysis and application of genetic data.

现有的基因特征选择算法针对基因特征本身的空间分布、特征之间的隐含关系及特征局部分布和特征的内在分布规律研究较少。为此有必要积极地提出新技术学习基因特征的重要性，提取基因特征间的隐含信息和描述特征的局部分布规律，以期选择出更能反映基因数据本质的特征子集，提高分类精度。具体为：1)针对基因数据高维小样本的特点，拟通过数据场描述样本的空间分布，通过势函数和质量度量策略的选择度量特征的重要性。2) 针对现有基于深度学习的特征选择算法的缺乏，拟提出新的深度特征选择模型。3)针对基因样本类别不平衡对特征选择所形成的挑战，拟通过局部区域内样本之间的空间关系和不同特征空间分布之间的关系形成最优特征子集。本项目拟通过数据场和深度网络进一步衡量基因特征的重要性，分析基因间的隐含关系，眼生成最优特征子集的策略，为基因数据的进一步分析和应用打下基础。

项目摘要

现有的基因特征选择算法针对基因特征本身的空间分布、特征之间的隐含关系及特征局部.分布和特征的内在分布规律研究较少。为此项目组提出新技术学习基因特征的重要性，.提取基因特征间的隐含信息和描述特征的局部分布规律，以期选择出更能反映基因数据本质的特征子集，提高分类精度。主要贡献为：.1)针对基因数据高维小样本的特点，通过数据场描述样本的空间分布，通过势函数和质量度量策略的选择度量特征的重要性。.2)针对现有的基因特征选择算法多为单一条件的特征选择，很少考虑基因特征提取且多数采用存在已久的神经网络，具有较低的分类精度。提出新的特征选择模型，在特征选择的基础上，利用深度学习提取基因的隐含特征，进而提高分类器的精度。.3)针对现有的基因特征提取大多采用正频繁序列模式，且模式长度固定的不足，开创性提出在提取基因特征时，引入负序列模式的概念，并且采用不等长的序列进行基因特征提取，在物种相似性度量和基因负序列模式路径匹配挖掘中取得了较好的效果。.4)针对基因数据集中缺失数据和不完整数据在实际应用中很常见。项目组称之为“高度不完整标记”问题。这种标记的不完整性严重损害了基因数据的固有结构，掩盖了基因序列之间的真实相关性。项目组提出了一种新的结构化特征选择模型，以同时识别最具鉴别力的特征和恢复高度不完整的标记。特征选择以标记结构重构为指导，通过特征空间的结构转换来恢复高度不完整的标记。.5)针对现有的深度基因特征选择策略主要面向单个基因组，项目组整合基因表达（Exp）数据与拷贝数突变（CNV）数据，之后我们采用多种算法对整合的基因数据进行特征选择和特征提取，获得特征子集，最后将特征选择后的特征子集导入神经网络，进行特征分类，取得了较好的效果。. 在此基础上，项目组整合了多个基因组数据集，并对相应的数据进行了预处理，同时对于深度神经网络的架构和多模态数据应用方面取得了一定的研究进展，这些均为下一步研究和实际应用打好了基础。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13197/j.eeev.2019.05.95.fuwq.009

发表时间：2019

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：

发表时间：2016

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：

发表时间：2021

赵龙的其他基金

批准号：21703086

批准年份：2017

资助金额：25.00

项目类别：青年科学基金项目

批准号：41274038

批准年份：2012

资助金额：80.00

项目类别：面上项目

批准号：11875138

批准年份：2018

资助金额：66.00

项目类别：面上项目

批准号：61601044

批准年份：2016

资助金额：21.00

项目类别：青年科学基金项目

批准号：51803015

批准年份：2018

资助金额：25.00

项目类别：青年科学基金项目

批准号：41574024

批准年份：2015

资助金额：70.00

项目类别：面上项目

批准号：41301342

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：41874034

批准年份：2018

资助金额：63.00

项目类别：面上项目

批准号：41805133

批准年份：2018

资助金额：26.50

项目类别：青年科学基金项目

批准号：81800601

批准年份：2018

资助金额：20.00

项目类别：青年科学基金项目

批准号：11475112

批准年份：2014

资助金额：98.00

项目类别：面上项目

批准号：31900678

批准年份：2019

资助金额：20.00

项目类别：青年科学基金项目

相似国自然基金

面向文本挖掘的特征选择关键问题研究

批准号：61163034

批准年份：2011

负责人：裴志利

学科分类：F0605

资助金额：49.00

项目类别：地区科学基金项目

面向大数据的半监督粗糙特征选择高效算法研究

批准号：61402272

批准年份：2014

负责人：王锋

学科分类：F0607

资助金额：26.00

项目类别：青年科学基金项目

面向大数据备份的重复数据删除关键技术研究

批准号：61402061

批准年份：2014

负责人：谭玉娟

学科分类：F0204

资助金额：26.00

项目类别：青年科学基金项目

面向通用数据库的数据安全保护关键技术研究

批准号：U1836115

批准年份：2018

负责人：沈剑

学科分类：F0206

资助金额：67.00

项目类别：联合基金项目

面向基因数据的深度特征选择关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于被动变阻尼装置高层结构风振控制效果对比分析

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于MCPF算法的列车组合定位应用研究

智能煤矿建设路线与工程实践

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

赵龙的其他基金

非平面多元发色团染料敏化TiO2电极界面的能量/电荷迁移机理

多层次实时鲁棒机载景像匹配辅助导航算法研究

辐射技术制备硅基键合固载离子液体材料对锝的吸附分离及其构效研究

基于大规模MIMO的高效信息与能量混合传输技术研究

适配体修饰自驱动微马达的构建及CTCs的精准检测

多层次环境感知信息辅助的行人动态融合导航定位算法研究

有关多溴联苯醚（PBDEs）污染土壤的新型热脱附技术及机制研究

基于多源信息自适应融合的无人机环境动态感知与连续导航方法

基于卫星数据同化估计陆面模型静态参数与土壤水分的方法研究

血清反应因子对缺血性急性肾损伤的保护作用及其机制研究

镧锕分离用BTPs/离子液体萃取体系的辐射效应研究

CD123 CAR-T与内皮细胞相互作用模型建立及CLS机制研究

相似国自然基金