以MEDLINE的生物医学文献为主要数据源,利用改进的编辑距离和隐马尔可夫链、条件随机域等机器学习方法,完成基因、蛋白质等的实体名字识别,进而挖掘基因、蛋白质、疾病和药物之间的相互关系,以此进行生物医学领域的假设发现,建立具有实用价值的生物医学知识发现系统。面向具体生物医学应用领域,综合利用MeSH(医学主题词)、UMLS(统一医学语言系统)和GO(基因本体)以及相应的中文生物医学主题词资源,利用基于实例的机器学习和潜在语义分析技术,建立中文生物医学文本的概念标注和信息抽取机制,将中英文相关文本统一在相同的语义视图之下,在此基础上构造双语生物医学文本的交叉挖掘模型。同时对于生物医学领域中知识模式的挖掘、检索和评价机制进行深入的研究,从而建立面向生物医学领域的跨语言文本挖掘平台。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
面向特定领域文本的知识元及其关联挖掘方法研究
矿床领域文本数据挖掘与知识图谱构建
面向机器翻译的文本领域识别
面向特定领域的文本语义分析关键技术