异质文本主题挖掘研究及应用于癌症子类型的发现

基本信息
批准号:61703362
项目类别:青年科学基金项目
资助金额:21.00
负责人:强继朋
学科分类:
依托单位:扬州大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:李云,袁运浩,章恩泽,李玉洁,阮敏,章天岳,刘岩,花仁贵
关键词:
潜在狄利克雷分配主题模型癌症突变数据子类型发现短文本
结项摘要

Topic modeling has made important progress towards generating high-level knowledge from a large corpus, has been widely applied in machine learning field. Existing topic modelings were designed for the properties of long text corpus or short text corpus separately without considering the propoerties of heterogeneous corpus including both long and short texts. In this project, we formulate a novel problem how to extract latent topics from a heterogeneous corpus (HTTM), and study several key issues in this problem. The detailed research contents are as follows: (1) Unlike previous work for any type of texts under single assumption, we will propose an effective heterogeneous text topic modeling; (2) For finding the appropriate number of topics automatically, we will design a HTTM model that can infer the number of topics; (3) Since somatic mutation profiles are extremely sparse, we will propose a heterogeneous topic modeling by incorporating somatic tumor genomes with gene networks, and apply for stratification of cancer into informative subtypes. The research findings will be beneficial to improve topic modeling on the domain of text mining, and expand the scope of applications of topic modeling to the tasks with heterogeneous texts.

主题模型能够有效的从文档集合中挖掘潜在的主题结构,已经在机器学习领域得到广泛的应用。已有的主题模型分别针对长文本或者短文本的特性进行设计,并没有考虑即包含长文本也包含短文本的异质文档集合的异质性。本课题针对异质文档集合,提出从异质文档中发现隐含主题(Heterogeneous Text Topic Modeling, HTTM)的研究问题,并解决其中若干关键问题。具体如下: (1)设计有效的异质文本主题模型,解决了已有主题模型针对文本集合只采用单一假设的问题;(2)构建自动学习主题数目的HTTM模型,解决文档集合中主题数目难确定的问题;(3)构建基于体细胞肿瘤基因网络的异质主题模型,并应用在癌症突变数据的子类型发现,解决了基因突变数据中的稀疏问题。研究成果有助于完善主题模型在文本挖掘领域的研究,扩展主题模型在异质数据处理中的应用。

项目摘要

主题模型能够有效的从文档集合中挖掘潜在的主题结构,已经在机器学习领域得到广泛的应用。本项目从异质文本的特定、主题数目难确定、主题模型的稳定性以及深度学习等前沿思想出发,深入研究了异质文本主题模型和聚类方法的构建,并在癌症子类型发现、文档摘要以及文本简化等方面开展了相关应用研究。该项目取得了较好的研究成果,完成的创新工作总结如下:. (1)提出了一种基于Pitman-Yor过程的新模型来自动发现本文中主题数目。具体而言,每个文本选择一个活动主题或利用Pitman-Yor过程导出的概率选择新的一个主题。在真实数据上进行实验,相对已有的算法,实验结果显示该模型具有更好的结果。. (2)为了解决主题模型的不稳定问题,提出了一种集成的NMF算法,通过使用循环学习速率计划训练单个NMF算法,沿着优化路径其收敛到几个局部最小值优化路径。通过真实的数据进行实验,实验结果显示该算法具有更好的性能。. (3)利用异质长度文本主题模型,提取一种基于读者感知的多文档摘要方法。利用异质主题模型学习的知识如文档中主题的分布和主题中词的分布,对原文档中所有的句子和所有的主题计算主题中每个句子的概率,从而选择每个主题中代表性的句子作为摘要。. (4)开展了癌症子类型和文本简化方面的应用研究,建立了面向具体任务的有效算法,促进了相关应用的发展。. 上述工作已在国内外学术期刊和会议上发表8篇论文,其中7篇期刊论文,1篇会议论文;申请发表专利3项;培养硕士研究生5人。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

农超对接模式中利益分配问题研究

农超对接模式中利益分配问题研究

DOI:10.16517/j.cnki.cn12-1034/f.2015.03.030
发表时间:2015
4

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
5

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019

强继朋的其他基金

相似国自然基金

1

面向活动类型挖掘和主题提取的人类行为模式研究

批准号:41801378
批准年份:2018
负责人:龚君芳
学科分类:D0114
资助金额:25.20
项目类别:青年科学基金项目
2

面向短文本的主题建模研究

批准号:61602204
批准年份:2016
负责人:李熙铭
学科分类:F06
资助金额:20.00
项目类别:青年科学基金项目
3

基于文本主题和网络结构挖掘与融合的电子商务欺诈检测研究

批准号:61602234
批准年份:2016
负责人:葛永
学科分类:F0210
资助金额:20.00
项目类别:青年科学基金项目
4

高性能基于主题的文本聚类研究

批准号:60703058
批准年份:2007
负责人:赵颖
学科分类:F0201
资助金额:20.00
项目类别:青年科学基金项目