基于词汇空间集聚的潜在主题发现方法及其实现研究

基本信息

批准号：71403190

项目类别：青年科学基金项目

资助金额：22.00

负责人：赵一鸣

学科分类：

依托单位：武汉大学

批准年份：2014

结题年份：2017

起止时间：2015-01-01 - 2017-12-31

项目状态：已结题

项目参与者：占南,马力,张斌,毛进,罗毅,陈柏彤,贾茜,李翔

关键词：

可视化潜在主题可视化文本挖掘潜在主题发现词汇集聚

结项摘要

Topic discovery from the aspect of fine-grained knowledge units such as terms is one of the core fields in information science research. Existed topic discovery methods in the level of terms which reveal relationships among terms within one topic by similarity of language environment, co-occurrence frequency and probability distribution have limitations to mine and represent underlying topics in texts. This application reveals relationships among terms of the same topic by lexical cohesion relationship. This research will study the organism of underlying topic representation starting from lexical cohesion phenomenon. Methods of extracting lexical cohesion relationship and clustering terms in visual space will also be proposed using transposed vector space model and multi-dimensional scale algorithm. Proximity matrix, centroid proximity matrix and attribute accumulative proximity matrix will be employed to express the relationship among terms and among topics. The excogitation of multiple methods to visualize underlying topics will be explored based on the above-mentioned triple levels of matrices. And Context Model and Topic Retrospective Mechanism will be designed to overcome the complexity in explanation of underlying topic visualization results. Finally, prototype system of underlying topic discovery and visualization will be constructed and used in real large-scale text set before evaluation of proposed method in this application. The contribution of this research is to provide new perspective and technical route of topic discovery. Research results of this research can be applied to text knowledge discovery and query expansion etc.

从词汇等细粒度知识单元的层面进行主题发现，是情报学的核心研究领域之一。现有词汇粒度上的主题发现方法，使用语言环境相似性、共现次数或概率分布特征表示同一主题内词汇之间的关联，在潜在主题的挖掘和可视化展示等方面存在一定的局限。与现有研究不同，本课题使用词汇集聚关系表示同一主题内词汇之间的关联。从词汇集聚现象入手，研究潜在主题表示的内在机理；通过对传统向量空间进行转置、使用多维尺度模型，研究提取词汇集聚关系和实现词汇空间集聚的方法；使用邻近矩阵、质心邻近矩阵、属性叠加邻近矩阵来承载词汇之间和主题之间的关系，基于此设计多维度的潜在主题可视化方法和流程；设计情景模型和主题回溯机制，用于克服解释潜在主题可视化结果时的复杂性；构建潜在主题发现及可视化的原型系统，并在实际文本集合中进行应用、检验和评价。本课题将为文本集合主题发现提供新的研究视角和方法路径，研究成果可应用于文本知识发现、查询扩展等领域。

项目摘要

潜在主题可以表示文本集的主要内容，通过潜在主题发现和可视化，能够发现隐藏的知识结构和模式、发现潜在的规律特征，实现深层次的文本挖掘和知识发现。.本项目从词汇集聚的角度进行了潜在主题发现方法的研究。揭示了使用具有集聚关系的词汇集合表示潜在主题的内在机理，包括用具有集聚关系的词条集合表示潜在主题的原理、用转置向量空间中的邻近关系表示集聚关系的原理、用MDS将邻近关系投影到低维空间的原理。通过对传统向量空间进行转置、使用多维尺度模型，提出了在可视空间中表示和提取词汇集聚关系的方法。使用邻近矩阵、质心邻近矩阵、属性叠加邻近矩阵来承载词汇之间和主题之间的关系，设计了多维度的潜在主题可视化方法和流程。设计了潜在主题可视化过程中的情景模型和主题回溯机制，用于克服解释潜在主题可视化结果时的复杂性。开发了潜在主题发现及可视化的原型系统，实现了多层次的潜在主题发现和可视化展示。.综合运用课题中提出的方法和工具，对美国数据处理服务业上市公司招股说明书中的风险文本进行了潜在主题识别与发现，以揭示数据处理服务业存在的风险。对社交问答平台问答糖尿病主题下的日志进行了潜在主题发现，揭示了糖尿病用户需求的变化和演进路径，从时间的维度拓展和延伸了申报书原有的研究内容，实现了潜在主题发展与演化的探测和揭示。.基于以上研究，本课题共出版专著1部，获软件著作权1项，发表（含录用）学术论文12篇，其中双盲审国际期刊论文5篇（含SSCI/SCIE期刊论文4篇）、EI源刊论文1篇、CSSCI索引期刊论文4篇、CPCI-SSH检索国际会议论文1篇、国际会议海报1篇。研究成果已成功在武汉高睿投资管理有限公司、湖北省技术交易所等单位应用。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.7507/1672-2531.202012076

发表时间：2021

DOI：10.13239/j.bjsshkxy.cswt.170210

发表时间：2017

DOI：

发表时间：2017

DOI：

发表时间：2016

DOI：10.3969/j.issn.1004-132x.2022.17.003

发表时间：2022

赵一鸣的其他基金

批准号：30271112

批准年份：2002

资助金额：18.00

项目类别：面上项目

批准号：71874130

批准年份：2018

资助金额：50.00

项目类别：面上项目

批准号：51404256

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：30972450

批准年份：2009

资助金额：31.00

项目类别：面上项目

批准号：39470606

批准年份：1994

资助金额：7.00

项目类别：面上项目

批准号：49273173

批准年份：1992

资助金额：9.00

项目类别：面上项目

批准号：30640085

批准年份：2006

资助金额：10.00

项目类别：专项基金项目

批准号：60573054

批准年份：2005

资助金额：22.00

项目类别：面上项目

批准号：48770107

批准年份：1987

资助金额：2.00

项目类别：面上项目

批准号：49573184

批准年份：1995

资助金额：11.00

项目类别：面上项目

批准号：40073016

批准年份：2000

资助金额：21.00

项目类别：面上项目

批准号：39870696

批准年份：1998

资助金额：11.00

项目类别：面上项目

批准号：81272393

批准年份：2012

资助金额：65.00

项目类别：面上项目

相似国自然基金

基于主题发现的图像语义理解与识别

批准号：61165009

批准年份：2011

负责人：李志欣

学科分类：F0604

资助金额：50.00

项目类别：地区科学基金项目

基于主题网络的用户内在兴趣发现及演进研究

批准号：61502247

批准年份：2015

负责人：李华康

学科分类：F0205

资助金额：21.00

项目类别：青年科学基金项目

面向商务智能的思维主题发现

批准号：71272161

批准年份：2012

负责人：高学东

学科分类：G0209

资助金额：55.00

项目类别：面上项目

基于潜在出行主题模型的民航旅客大数据挖掘与分析

批准号：U1633103

批准年份：2016

负责人：刘杰

学科分类：F01

资助金额：36.00

项目类别：联合基金项目

基于词汇空间集聚的潜在主题发现方法及其实现研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

口腔扁平苔藓研究热点前沿的可视化分析

服务业集聚对城市化的影响

服务业二维集聚对FDI的影响——中国287个城市的实证分析

A Fast Algorithm for Computing Dominance Classes

射流束切削时在边壁约束下的直径增大变形及加工表面质量研究

赵一鸣的其他基金

能量代谢限速酶基因多态性与噪声性听力损伤易感性关系

探寻式搜索过程中的路径识别与评价研究

煤巷锚杆树脂锚固体空洞现象及其力学特性

职业紧张与胚胎停育的队列研究

噪声性耳聋易患者基因表达差异的研究

金属矿床原生分带地球化学研究

时域峰度校正工业脉冲噪声与听力损失剂量-反应关系模型的人群研究

并发可靠的可重置零知识协议及其应用

交代成矿理论及其找矿意义(待资助B)

含金夕卡岩矿床形成构造环境和地球化学评价标志

含银夕卡岩矿床的地质地球化学标志和成成矿模式

线粒体基因突变与噪声所致听力损伤个体差异关系的研究

以肿瘤相关巨噬细胞为靶点的α干扰素抗肝癌作用机制研究

相似国自然基金