基于生物信息学和自然语言处理的水稻抗病基因挖掘

基本信息
批准号:61202305
项目类别:青年科学基金项目
资助金额:22.00
负责人:夏静波
学科分类:
依托单位:华中农业大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:牛晓辉,袁道军,张四兰,熊慧娟,常继伟,邢锋
关键词:
生物自然语言处理预测数据分类特征多元信息
结项摘要

Along with the completion of rice genome sequencing and beginning of gene annotation era, the research on rice resistance gene/ protein has accumulated a large number of bioinformatics data and biological literature data. Unfortunately, the current exploration of the functional genes of rice disease resistance still lags behind. Based on the research basis of our previous work in functional gene discovery and bioinformatics algorithm study, and by using both bioinformatics methods based on sequence, structure, gene expression analysis and natural language process methods based on semantics, the gene discovery system for Xanthomonas oryzae pv.oryzae resistant gene and Magnaporthe grisea resistant gene in rice is constructed. First, we use the microarray method and text mining method to build a filtered candidate gene dataset, then we use sequence structure information, gene ontology information, documentation semantics of entry information and biomedical event extraction information and build through the support vector machine four categories of predictors, and finally we use artificial neural network to establish a comprehensive evaluation of the multiple classifiers system and construct credible rice disease resistance gene discovery system through cross-validation. Methods used in this research combine text mining-based natural language processing with the traditional ab-initio method based on sequence information, which may shorten the screening process of the rice disease resistance gene, and the credibility of the data and results are high if compared with the mere traditional bioinformatics method.

伴随着水稻基因测序的完成和基因注释时代的来临,水稻抗病基因/蛋白质积累了大量的生物信息学数据和生物文献数据,而水稻抗病功能基因的发掘当前仍显滞后。课题组在功能基因挖掘和生物信息学算法的已有研究基础上,将基于序列、结构和表达差异分析的生物信息学方法和基于语义学的生物自然语言处理方法相结合,对水稻白叶枯病、抗稻瘟病等抗病基因进行发掘。首先利用基因表达差异的微阵列方法和病原物基因共显的语义学方法构建初筛候选抗病基因数据集,再提取序列结构信息、基因本体论信息、文献语义词条信息和生物事件提取信息,通过支撑向量机构建四个分类预测器,最后利用神经网络建立多分类器的综合评判系统,经过系统自检和完善得到可信的水稻抗病基因发掘系统。在传统基于序列结构的从头预测方法基础上,本课题有效结合基于文本挖掘的自然语言处理方法,能缩短水稻抗病基因的筛选过程,其数据和结果的可信度将较传统生物信息学方法有所提高。

项目摘要

该课题的主要研究思路是将生物自然语言处理(BioNLP)作为系统生物学的一环,看做一种有利的补充手段,取得足够可信的科学证据,协助传统的基于序列结构的传统生物信息学方法,去挖掘水稻基因数据,并可对其他有意义的生物医药类知识挖掘提供支持。..研究项目已经按照计划顺利进行。在实施该项目过程中,作者访问了香港城市大学语言学系与Alex Chengyu Fang教授展开BioNLP合作,访问德州大学阿灵顿分校与Heng Huang教授展开数据挖掘的合作,拜访科罗拉多大学丹佛分校与Kevin B Cohen展开BioNLP合作。在项目支持下发表论文9篇,其中6篇SCI,另外3篇也均为EI收录,项目取得了预计目标。..我们与香港城市大学的Alex Chengyu Fang教授合作,对芬兰Turku大学做出的TEES生物文本事件提取系统做出了优化,优化后的系统相较之前的24个BioNLP ST参赛队伍的结果为最好;我们将新的BioNLP方法结合到我们比较擅长的基于序列方法的预测方法,得到了水稻白叶枯病抗病基因的重排序;我们同样对BioNLP的事件提取做了语言学分析;在对水稻的基因进行分析时,我们同时将生物信息学的表型分析方法用到代谢物对象中,发现了可能的重要SNP;我们还在智能算法和可视化结果呈现发面做了一些尝试,也继续在传统的基于序列的功能基因预测领域做了一些工作。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
5

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022

夏静波的其他基金

相似国自然基金

1

基于生物芯片表达谱数据的水稻磷响应关键功能基因的生物信息学挖掘

批准号:30771326
批准年份:2007
负责人:陈铭
学科分类:C1307
资助金额:30.00
项目类别:面上项目
2

基于自然语言处理技术的生物实体语义网络研究和应用

批准号:61202304
批准年份:2012
负责人:魏小梅
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目
3

基于自然语言处理技术的蛋白质结构和功能预测

批准号:61003090
批准年份:2010
负责人:董启文
学科分类:F0213
资助金额:21.00
项目类别:青年科学基金项目
4

用同源序列法和图位克隆分离水稻抗病基因

批准号:39889002
批准年份:1998
负责人:王石平
学科分类:C0602
资助金额:60.00
项目类别:专项基金项目