生物文献的自动分类方法是生物信息学的重要研究内容,也是文本分析与挖掘领域的研究课题,既有理论研究意义,又有实际应用价值。本项目从多样化生物文本特征表达的角度研究提高生物文本自动分类的准确性。研究包含三个方面的内容:一是提高自由文本中生物命名实体识别的准确率。二是从自由文本中挖掘蛋白质间交互(PPI)的关系模式,采用的方法包括:依据是否有蛋白质和表征关系的关键字或者隐性的交互信息,在单句内发现PPI信息;针对蛋白质交互信息的描述不在同一个单句中的问题,在相邻近的多句内发现PPI信息;利用搜索引擎和公共生物信息数据库等外部网络资源,挖掘蛋白质命名实体交互的表面模式,并利用bootstrap提升表面模式。三是集成多种不同类型的特征,包括生物命名实体、实体关系模式、词包法、触发词等,利用它们之间信息的互补性,更准确地表达文本的真实内容,从特征向量和分类器两个层面的集成提高生物文本自动分类的准确性。
生物文献的自动分类方法是生物信息学的重要研究内容,也是文本分析与挖掘领域的研究课题,既有理论研究意义,又有实际应用价值。传统文本分类方法多采用词包法在文档层面进行文本表达,这种表达方式摒弃了特征之间的语义关系。本项目着重从多样化生物文本特征表达的角度研究提高生物文本自动分类的准确性的新理论和新方法。本项目在多个不同的层面上(句子内、句子间、摘要文本和全文文本)进行多样化文本特征(语义关系、命名实体关系、实体概念互指消岐和语篇关系)的识别分类研究。.本项目深入研究从多层面抽取多种语义关系的方法。首先,在句子内层面进行名词性短语之间的语义关系识别分类和实体交互关系识别这两部分的研究。名词性短语之间语义关系识别可以挖掘实体之间的因果关系,部分与整体关系,来源与实体关系等;实体间交互关系识别则着重在生物实体之间是否有交互关系信息。其次,在句子间层面进行语篇关系识别研究,发现子句之间的因果关系,转折关系等。然后,在摘要文本和全文文本层面,应用多种文本表达特征进行生物文本信息分类研究,集成多种不同类型的特征,包括生物命名实体、实体关系模式、词包法、触发词等,利用它们之间信息的互补性,更准确地表达文本的真实内容,从特征向量和分类器两个层面的集成提高生物文本自动分类的准确性。此外,为了提高实体的覆盖率和准确率,在文档层面进行实体的共指消解研究。作为基础研究性课题,本项目的研究内容具有前瞻性和可持续性;应用在生物领域的同时,我们积极扩宽思路,紧跟国际最新的研究热点,在相关的医疗临床和医药学领域也同时进行初步探索性研究,为项目的后续可持续发展奠定了良好的理论研究基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
基于SSVEP 直接脑控机器人方向和速度研究
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
疏勒河源高寒草甸土壤微生物生物量碳氮变化特征
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
中文文献自动分类技术研究
面向生物学文献的本体自动提取算法研究
大数据环境下基于生物医学本体的文献无监督分类方法研究
基于学术文献引文的自动摘要关键技术研究