基于条件随机域切分模型的基因组词语组合挖掘研究

基本信息
批准号:61172099
项目类别:面上项目
资助金额:60.00
负责人:徐永东
学科分类:
依托单位:哈尔滨工业大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:刘云龙,王巍,王伟,张策,徐建,韩东涛,宋健,杨帆
关键词:
计算语言学条件随机域模型词语组合挖掘迁移学习特异模式挖掘
结项摘要

本申请从语言学角度,将生物全基因组作为由词语模式组成的序列进行整体分析,利用计算语言学方法结合DNA序列的生物特性,进行全基因组的词语模式挖掘。首先在已有的生物数据库的基础上,将现有的基因组功能位点作为标准词条,深入研究了基于统计的特异频率字符串挖掘、串联重复序列挖掘、候选生物词典构建、基于机器学习的DNA序列最优切分策略研究、词语模式泛化等一系列关键技术并最终建立多物种的层次词语模式词典。在最为关键的序列最优切分算法中,引入了条件随机域模型,综合利用局部、全局特征来挖掘词语切分的最优路径。在模型学习问题上,建立可与之有效映射的英文序列切分模型,利用迁移学习策略解决了DNA序列分析缺乏标准训练数据这一瓶颈问题。.本申请的相关研究成果是全面理解全基因组的结构、功能的重要基础,同时可将现有的大量计算生物学问题从粗粒度的碱基层面的研究提升到词语层面的研究,从而将生命科学的发展起到积极的促进作用。

项目摘要

本申请从语言学角度,对生物全基因组序列进行分词,从而达到“理解”DNA语言的目的。为实现这一目标,本课题组完成了三方面的研究:1)利用英文文本作为模拟数据,深入研究了未知词语特征的前提下,小字符集序列切分的特征选择问题,最终利于边界熵以及整词特征获得了92%的切分准确率;2)我们在已有的生物数据库的基础上,将现有的基因组功能位点作为标准词条,深入研究了基于统计的特异频率字符串挖掘、串联重复序列挖掘、候选生物词典构建、基于条件虽机场模型的DNA序列切分策略研究、基于迁移学习的DNA序列最优切分策略研究、词语模式泛化等一系列关键技术并最终建立了多个适合不同物种的全基因组切分模型;3)探索了DNA词语序列在生物信息学上的应用。我们建立了细菌层次词语模式词典,研究了基于词条的全基因组比对算法及系统进化分析。.本申请实现了语言学角度的DNA序列分词,该研究成果是全面理解全基因组的结构、功能的重要基础。但同时本项目也面临着生物学知识匮乏,算法的结果难以评价及优化的问题。因此本项目的研究将是一个长期过程,将随着生物学、生物信息学、生命科学的领域的发展而逐渐成熟。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

徐永东的其他基金

批准号:60803092
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目
批准号:50672076
批准年份:2006
资助金额:28.00
项目类别:面上项目
批准号:59772031
批准年份:1997
资助金额:14.00
项目类别:面上项目

相似国自然基金

1

基于谓词语义组合的现代汉语分析理论和方法

批准号:69683004
批准年份:1996
负责人:王宝库
学科分类:F0211
资助金额:10.00
项目类别:专项基金项目
2

基于知觉表征的韵律短语切分模型

批准号:60175013
批准年份:2001
负责人:杨玉芳
学科分类:F0605
资助金额:18.00
项目类别:面上项目
3

基于信用等级随机迁移的资产负债组合优化模型

批准号:71301017
批准年份:2013
负责人:闫达文
学科分类:G0114
资助金额:20.50
项目类别:青年科学基金项目
4

计算听觉场景分析中基于统计模型的听觉片段切分研究

批准号:61365006
批准年份:2013
负责人:张学良
学科分类:F0605
资助金额:46.00
项目类别:地区科学基金项目