Since Formal Concept Analysis-based text processing always uses keywords as the attributes of formal context, and there exist the correlation, overlap, and repetition between keywords, and the attributes usually remain with mixtures of topics which will lead to the result of text mining does not meet the special information requirements from users. Furthermore, concept lattice’s building on large scale text dataset is time and space consuming. According to the above situations, we combine LDA probabilistic topic model into Formal Concept Analysis. First, we define a textual topical Formal Concept Analysis model in which the attributes can be calculated by probabilistic topic model which can express the attributes’ semantic metric own to some topic or topics in real text mining. And the formal concepts in the lattice built by topics have its joint probabilistic of topic(s) with which we can develop a method to evaluate the importance or typicality of the formal concepts. Second, a distributed processing model is designed, including the decomposition of formal context by topic and the union of several sub concept lattices, which can improve the efficiency of lattice’s construction. At last, with the query result from scholar search engine, we propose a multi-document abstract construction framework based on the proposed model which can fulfill the request of presenting a text summarization with special topic purpose and enough content covering.
针对目前基于形式概念分析的文本处理主要使用关键词作为形式背景属性,属性之间存在关联、重叠、重复且属性内容不区分主题,导致无法满足特定目标或主题的文本挖掘需求,以及规模化文本概念格构建时间长、单格耗费空间多等问题,本课题研究引入LDA主题模型构建形式背景,设计一个基于主题形式概念分析的文本处理模型。首先,利用主题比关键词信息粒度大且更能表达文本语义信息的优点,使用概率主题模型计算并构成文本数据的形式背景,设计形式概念在概念格上下文中的主题联合分布模型,表达形式概念的典型性或重要性;其次,设计一个分布式概念格构建模型,按主题对形式背景进行分解,对分解背景构成的概念格进行多格同时合并,达到多主题概念融合,并能够提升概念格构建效率;最后,结合学术论文检索,使用主题形式概念分析模型,提出一种基于查询结果集的多文档摘要构建框架,以满足特定主题要求的摘要内容表达及覆盖。
由于传统的形式概念分析通常使用单值形式背景进行数据分析,无法反映现实数据属性的复杂性,本课题研究将LDA模型引入形式概念分析,针对文本数据处理,构建一个文本主题形式概念分析模型,依靠此模型,研究解决前文提出的形式概念分析在文本处理中出现的若干问题,以帮助形式概念分析在文本处理中有更广泛的应用。包括:提出一个文本数据模糊形式背景生成模型,构建主题模糊概念格,设计形式概念的主题分布数学模型,以表达形式概念在概念格上下文中的典型性或重要性,可用于精炼文本概念格,挖掘核心主题知识;针对规模化文本数据,设计基于主题的形式背景分解和概念格合并算法,降低概念格构建过程的时间和空间耗费;最后,针对学术论文检索结果集,利用主题模糊形式概念分析模型,提出一种论文摘要和检索框架。结合上述研究内容,本课题获得的研究成果在CCF顶级期刊TKDE,中科院SCI 2区期刊EAAI,CCF B类会议ECAI等顶级期刊和会议上发表,累计6篇论文(第一标注),并获批专利1项,申请专利1项。文本主题模糊概念格模型提供了一个基于LDA主题模型生成模糊形式背景的系统性途径,可以合理的利用主题来组织形式背景并构建概念格,符合用户对特定信息的要求,形式背景的分解和概念格合并对概念格构造效率的提升可以使形式概念分析在文本处理应用中更具可操作性。本课题的研究成果可用于利用形式概念分析进行知识地图构建、文本摘要生成以及信息检索中的请求扩展和个性化推荐等方面,具有较好的研究前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
融入概念的高效主题分析框架与关键技术研究
基于短语信息和领域概念的主题标引关键技术研究
多语言智能文本处理中基于主题语义空间的文本表示研究
基于形式概念分析的描述逻辑本体构建理论与方法