概率主题模型是一类重要的文本建模方法,建立在统计学基础上,突出的优点是具清晰的模型语义、丰富的表达能力。在信息检索、文本挖掘、自然语言处理等领域中的应用表明,概率主题模型是一种非常有效的手段。然而,由于概率主题模型求解算法一般都具有较高的复杂度并且是基于串行设计的,不利于在大规模文本处理任务中应用。所以,本项目的研究目标是:探索和挖掘概率主题模型的可并行性,系统性地研究和建立概率主题模型的可扩展求解算法并应用到大规模文本处理任务中。具体的研究内容包括:1.研究针对主题规模具有可扩展性的高性能算法,关键问题是主题集分解算法;2.研究支持数据规模和主题规模协同扩展的高性能算法,关键问题是模型子空间分解算法;3.研究基于GPGPU众核平台的并行算法,关键问题是面向GPGPU硬件架构和编程模型的计算任务的映射方法;4.大规模概率主题模型在信息检索和文本分类等领域中的应用。
概率主题模型是一类重要的文本建模方法,建立在统计学基础上,突出的优点是具清晰的模型语义、丰富的表达能力。在信息检索、文本挖掘、自然语言处理等领域中的应用表明,概率主题模型是一种非常有效的手段。然而,由于概率主题模型求解算法一般都具有较高的复杂度并且是基于串行设计的,不利于在大规模文本处理任务中应用。所以,本项目的研究目标是:探索和挖掘概率主题模型的可并行性,系统性地研究和建立概率主题模型的可扩展求解算法并应用到大规模文本处理任务中。..项目执行期内,我们对以下方面的具体内容进行了研究和开发:.一)高性能求解算法方面:1.研究出针对数据规模具有可扩展性的高性能算法;2.研究出支持数据规模和主题规模协同扩展的细粒度高性能算法。.二)研发主题模型的高性能求解系统:主要包含LDA和CTM两个典型模型,以及并行、分布式、并行分布混合式三种高性能计算模式。.三)大规模概率主题模型的示范应用:文本可视化表示和自动文本分类。..相关研究取得8篇学术论文、申请4项专利、5项软件著作权和1本译著等等学术成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于概率主题模型的词义计算及应用研究
大规模时变区域覆盖优化建模及其高性能求解
基于多模态概率主题模型的实体相关文本可视化
基于PAM概率主题模型的本体概念及层次结构学习研究