Topic discovery from the aspect of fine-grained knowledge units such as terms is one of the core fields in information science research. Existed topic discovery methods in the level of terms which reveal relationships among terms within one topic by similarity of language environment, co-occurrence frequency and probability distribution have limitations to mine and represent underlying topics in texts. This application reveals relationships among terms of the same topic by lexical cohesion relationship. This research will study the organism of underlying topic representation starting from lexical cohesion phenomenon. Methods of extracting lexical cohesion relationship and clustering terms in visual space will also be proposed using transposed vector space model and multi-dimensional scale algorithm. Proximity matrix, centroid proximity matrix and attribute accumulative proximity matrix will be employed to express the relationship among terms and among topics. The excogitation of multiple methods to visualize underlying topics will be explored based on the above-mentioned triple levels of matrices. And Context Model and Topic Retrospective Mechanism will be designed to overcome the complexity in explanation of underlying topic visualization results. Finally, prototype system of underlying topic discovery and visualization will be constructed and used in real large-scale text set before evaluation of proposed method in this application. The contribution of this research is to provide new perspective and technical route of topic discovery. Research results of this research can be applied to text knowledge discovery and query expansion etc.
从词汇等细粒度知识单元的层面进行主题发现,是情报学的核心研究领域之一。现有词汇粒度上的主题发现方法,使用语言环境相似性、共现次数或概率分布特征表示同一主题内词汇之间的关联,在潜在主题的挖掘和可视化展示等方面存在一定的局限。与现有研究不同,本课题使用词汇集聚关系表示同一主题内词汇之间的关联。从词汇集聚现象入手,研究潜在主题表示的内在机理;通过对传统向量空间进行转置、使用多维尺度模型,研究提取词汇集聚关系和实现词汇空间集聚的方法;使用邻近矩阵、质心邻近矩阵、属性叠加邻近矩阵来承载词汇之间和主题之间的关系,基于此设计多维度的潜在主题可视化方法和流程;设计情景模型和主题回溯机制,用于克服解释潜在主题可视化结果时的复杂性;构建潜在主题发现及可视化的原型系统,并在实际文本集合中进行应用、检验和评价。本课题将为文本集合主题发现提供新的研究视角和方法路径,研究成果可应用于文本知识发现、查询扩展等领域。
潜在主题可以表示文本集的主要内容,通过潜在主题发现和可视化,能够发现隐藏的知识结构和模式、发现潜在的规律特征,实现深层次的文本挖掘和知识发现。.本项目从词汇集聚的角度进行了潜在主题发现方法的研究。揭示了使用具有集聚关系的词汇集合表示潜在主题的内在机理,包括用具有集聚关系的词条集合表示潜在主题的原理、用转置向量空间中的邻近关系表示集聚关系的原理、用MDS将邻近关系投影到低维空间的原理。通过对传统向量空间进行转置、使用多维尺度模型,提出了在可视空间中表示和提取词汇集聚关系的方法。使用邻近矩阵、质心邻近矩阵、属性叠加邻近矩阵来承载词汇之间和主题之间的关系,设计了多维度的潜在主题可视化方法和流程。设计了潜在主题可视化过程中的情景模型和主题回溯机制,用于克服解释潜在主题可视化结果时的复杂性。开发了潜在主题发现及可视化的原型系统,实现了多层次的潜在主题发现和可视化展示。.综合运用课题中提出的方法和工具,对美国数据处理服务业上市公司招股说明书中的风险文本进行了潜在主题识别与发现,以揭示数据处理服务业存在的风险。对社交问答平台问答糖尿病主题下的日志进行了潜在主题发现,揭示了糖尿病用户需求的变化和演进路径,从时间的维度拓展和延伸了申报书原有的研究内容,实现了潜在主题发展与演化的探测和揭示。.基于以上研究,本课题共出版专著1部,获软件著作权1项,发表(含录用)学术论文12篇,其中双盲审国际期刊论文5篇(含SSCI/SCIE期刊论文4篇)、EI源刊论文1篇、CSSCI索引期刊论文4篇、CPCI-SSH检索国际会议论文1篇、国际会议海报1篇。研究成果已成功在武汉高睿投资管理有限公司、湖北省技术交易所等单位应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于脉搏波的中医体质自动辨识系统研究初探
基于数据挖掘治疗过敏性紫癜肾炎用药规律探讨
高光谱图谱融合检测羊肉中饱和脂肪酸含量
融合多种支持度定义的频繁情节挖掘算法
基于主题发现的图像语义理解与识别
基于主题网络的用户内在兴趣发现及演进研究
面向商务智能的思维主题发现
基于潜在出行主题模型的民航旅客大数据挖掘与分析