基于条件随机域切分模型的基因组词语组合挖掘研究

基本信息

批准号：61172099

项目类别：面上项目

资助金额：60.00

负责人：徐永东

学科分类：

依托单位：哈尔滨工业大学

批准年份：2011

结题年份：2015

起止时间：2012-01-01 - 2015-12-31

项目状态：已结题

项目参与者：刘云龙,王巍,王伟,张策,徐建,韩东涛,宋健,杨帆

关键词：

计算语言学条件随机域模型词语组合挖掘迁移学习特异模式挖掘

结项摘要

本申请从语言学角度，将生物全基因组作为由词语模式组成的序列进行整体分析，利用计算语言学方法结合DNA序列的生物特性，进行全基因组的词语模式挖掘。首先在已有的生物数据库的基础上，将现有的基因组功能位点作为标准词条，深入研究了基于统计的特异频率字符串挖掘、串联重复序列挖掘、候选生物词典构建、基于机器学习的DNA序列最优切分策略研究、词语模式泛化等一系列关键技术并最终建立多物种的层次词语模式词典。在最为关键的序列最优切分算法中，引入了条件随机域模型，综合利用局部、全局特征来挖掘词语切分的最优路径。在模型学习问题上，建立可与之有效映射的英文序列切分模型，利用迁移学习策略解决了DNA序列分析缺乏标准训练数据这一瓶颈问题。.本申请的相关研究成果是全面理解全基因组的结构、功能的重要基础，同时可将现有的大量计算生物学问题从粗粒度的碱基层面的研究提升到词语层面的研究，从而将生命科学的发展起到积极的促进作用。

项目摘要

本申请从语言学角度，对生物全基因组序列进行分词，从而达到“理解”DNA语言的目的。为实现这一目标，本课题组完成了三方面的研究：1）利用英文文本作为模拟数据，深入研究了未知词语特征的前提下，小字符集序列切分的特征选择问题，最终利于边界熵以及整词特征获得了92%的切分准确率；2）我们在已有的生物数据库的基础上，将现有的基因组功能位点作为标准词条，深入研究了基于统计的特异频率字符串挖掘、串联重复序列挖掘、候选生物词典构建、基于条件虽机场模型的DNA序列切分策略研究、基于迁移学习的DNA序列最优切分策略研究、词语模式泛化等一系列关键技术并最终建立了多个适合不同物种的全基因组切分模型；3）探索了DNA词语序列在生物信息学上的应用。我们建立了细菌层次词语模式词典，研究了基于词条的全基因组比对算法及系统进化分析。.本申请实现了语言学角度的DNA序列分词，该研究成果是全面理解全基因组的结构、功能的重要基础。但同时本项目也面临着生物学知识匮乏，算法的结果难以评价及优化的问题。因此本项目的研究将是一个长期过程，将随着生物学、生物信息学、生命科学的领域的发展而逐渐成熟。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：2016

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：

发表时间：2021

徐永东的其他基金

批准号：60803092

批准年份：2008

资助金额：20.00

项目类别：青年科学基金项目

批准号：50672076

批准年份：2006

资助金额：28.00

项目类别：面上项目

批准号：59772031

批准年份：1997

资助金额：14.00

项目类别：面上项目

相似国自然基金

基于谓词语义组合的现代汉语分析理论和方法

批准号：69683004

批准年份：1996

负责人：王宝库

学科分类：F0211

资助金额：10.00

项目类别：专项基金项目

基于知觉表征的韵律短语切分模型

批准号：60175013

批准年份：2001

负责人：杨玉芳

学科分类：F0605

资助金额：18.00

项目类别：面上项目

基于信用等级随机迁移的资产负债组合优化模型

批准号：71301017

批准年份：2013

负责人：闫达文

学科分类：G0114

资助金额：20.50

项目类别：青年科学基金项目

计算听觉场景分析中基于统计模型的听觉片段切分研究

批准号：61365006

批准年份：2013

负责人：张学良

学科分类：F0605

资助金额：46.00

项目类别：地区科学基金项目

基于条件随机域切分模型的基因组词语组合挖掘研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

一种基于多层设计空间缩减策略的近似高维优化方法

基于MCPF算法的列车组合定位应用研究

智能煤矿建设路线与工程实践

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

徐永东的其他基金

基于信息重组的多文档自动文摘技术

碳化硅陶瓷基复合材料构件制造过程的场效应及其控制

连续同复合法制备C/SiC复合材料

相似国自然基金