基于机器学习策略优化猪基因组选择的方法研究

基本信息
批准号:31702087
项目类别:青年科学基金项目
资助金额:25.00
负责人:刘小磊
学科分类:
依托单位:华中农业大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:付明,李岑岑,候晔,尹立林,胡岸
关键词:
芯片检验功效全基因组预测SNP统计基因组
结项摘要

Advances of high-throughput sequencing technologies have dramatically reduced the cost of genotyping and have made genomic prediction (selection) widely applied in livestock breeding programs and statistical model plays a key role. GBLUP (Genomic Best Linear Unbiased Prediction), owing to its computational efficiency, has been widely used in breeding practice. However, GBLUP assumes that all available markers have the same effect-size distribution, which limits the prediction accuracy. In contrast, Bayesian methods assume that variants have different effect distribution, have a higher prediction accuracy but the optimize process is very time-consuming, which limits the application of Bayesian methods in practice. So, it is important to balance the prediction accuracy and computational efficient. This study is designed to build a one thousand large white pig reference population database based on available samples and related phenotype record; using the database, combing with the feature of GWAS (Genome-Wide Association Study) results, new method optimize the fixed effects and random effects using machine learning based multivariate linearity regression method and cross-validation based model selection strategy, respectively; Test and optimize the method using both simulation data and multi-species data in order to expand the application of new method; Speed up model selection procedure using parallel, set up a CPU-GPU mixed parallel compute platform. The study will innovate a new idea for optimizing genomic selection and will provide new method and tool for genomic selection on swine breeding.

高通量基因分型价格的降低使得基因组选择广泛地应用于家畜育种,统计模型扮演着关键角色。GBLUP模型由于计算高效,广泛用于育种实践,然而,其假设所有标记具有相同效应分布,限制了预测准确度。与此相反,贝叶斯方法假设标记效应服从不同分布,预测准确度较优,但模型优化过程极为耗时,限制了其在育种中的应用。因此,平衡预测准确度和计算效率具有重要的实践意义。本研究拟在课题组已采集样品和性状基础上构建千头大白猪参考群数据库;利用该数据库,结合目标性状全基因组关联分析结果特征,基于机器学习的多元线性回归方法和交叉验证的模型选择策略,分别对预测模型中的固定效应和随机效应部分进行优化;利用模拟、多物种数据对参数进行测试优化,拓展新方法的广泛适用性;对模型选择等过程进行并行加速优化,搭建CPU-GPU混合并行加速的计算平台。本研究将创新机器学习策略优化基因组选择的新思路,为猪基因组选择育种提供新的方法和工具。

项目摘要

基因组选择/预测是指利用覆盖于基因组的高密度遗传标记对未知表型(或育种值)进行预测的技术。在动植物育种领域,利用该技术可对不同经济性状进行早期选择,保留优势个体,淘汰劣势个体,既能提高群体总体性能表现以获得丰厚的经济效益,还能极大降低饲养及表型测量成本。预测准确性是基因组预测应用于实际的基本保证,而统计方法发挥至关重要的作用。线性混合模型(LMM,又称GBLUP)以其高效的计算效率优势成为目前基因组预测使用最广泛的方法,然而由于其简单的标记效应假设,预测准确性往往偏低,尤其对于受大效应基因影响的性状。另一类以贝叶斯(Bayes)理论为基础的方法,假设遗传标记对性状的影响可能有大、中、小或无影响,并遵循不同的分布,未知参数可以通过MCMC(蒙特卡洛马尔科夫)方法进行估计和优化,其预测准确性往往高于LMM方法,然而其复杂的假设导致众多的未知待估超参,参数的求解过程无法并行运算,计算效率低下,因此难以广泛应用于育种实践。高计算效率的方法预测准确性较低,高预测准确性的方法计算效率较低。为了解决这一难题,开展了本项目研究,获得的主要结果包括:(1)研发了可适用于不同遗传复杂程度性状的基因组选择新算法KAML,该算法给出了一个性状特异的、可加权遗传标记权重的方法,模拟数据与猪、人类、牛、马、玉米等物种的多个真实数据对其评估结果显示,新算法的预测准确性和计算效率综合表现超过GBLUP、BSLMM、BayesR等广泛应用的算法;(2)KAML给出了一个基于交叉验证、多元回归、网格搜索以及二分求极值等机器学习方法的模型框架,可灵活地对任意信息(如多组学)给出的标记权重进行评估、优化;(3)对于数十万个体以上的大群体,可随机选取部分群体来估计KAML模型中的未知参数。然后KAML可以利用预估计的参数和所有个体构建的亲缘关系矩阵,像GBLUP(或SSGBLUP)一样高效的处理育种大数据。本项目研发的KAML算法可助力我国猪等动植物的基因组育种产业发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
2

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
3

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
4

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
5

时间序列分析与机器学习方法在预测肺结核发病趋势中的应用

时间序列分析与机器学习方法在预测肺结核发病趋势中的应用

DOI:
发表时间:2020

刘小磊的其他基金

相似国自然基金

1

基于基因组选择和选配策略提高猪生长性状育种效率的研究

批准号:31902138
批准年份:2019
负责人:李秀领
学科分类:C1702
资助金额:25.00
项目类别:青年科学基金项目
2

基于变量选择与训练群体优化的植物基因组选择方法研究

批准号:31701164
批准年份:2017
负责人:代志军
学科分类:C0608
资助金额:25.00
项目类别:青年科学基金项目
3

基于机器学习方法感知非功能属性的Web服务选择研究

批准号:60773217
批准年份:2007
负责人:刘青
学科分类:F0202
资助金额:23.00
项目类别:面上项目
4

基于机器学习的线程级推测模型和编译优化方法研究

批准号:61173040
批准年份:2011
负责人:赵银亮
学科分类:F0204
资助金额:55.00
项目类别:面上项目