基于词汇空间集聚的潜在主题发现方法及其实现研究

基本信息
批准号:71403190
项目类别:青年科学基金项目
资助金额:22.00
负责人:赵一鸣
学科分类:
依托单位:武汉大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:占南,马力,张斌,毛进,罗毅,陈柏彤,贾茜,李翔
关键词:
可视化潜在主题可视化文本挖掘潜在主题发现词汇集聚
结项摘要

Topic discovery from the aspect of fine-grained knowledge units such as terms is one of the core fields in information science research. Existed topic discovery methods in the level of terms which reveal relationships among terms within one topic by similarity of language environment, co-occurrence frequency and probability distribution have limitations to mine and represent underlying topics in texts. This application reveals relationships among terms of the same topic by lexical cohesion relationship. This research will study the organism of underlying topic representation starting from lexical cohesion phenomenon. Methods of extracting lexical cohesion relationship and clustering terms in visual space will also be proposed using transposed vector space model and multi-dimensional scale algorithm. Proximity matrix, centroid proximity matrix and attribute accumulative proximity matrix will be employed to express the relationship among terms and among topics. The excogitation of multiple methods to visualize underlying topics will be explored based on the above-mentioned triple levels of matrices. And Context Model and Topic Retrospective Mechanism will be designed to overcome the complexity in explanation of underlying topic visualization results. Finally, prototype system of underlying topic discovery and visualization will be constructed and used in real large-scale text set before evaluation of proposed method in this application. The contribution of this research is to provide new perspective and technical route of topic discovery. Research results of this research can be applied to text knowledge discovery and query expansion etc.

从词汇等细粒度知识单元的层面进行主题发现,是情报学的核心研究领域之一。现有词汇粒度上的主题发现方法,使用语言环境相似性、共现次数或概率分布特征表示同一主题内词汇之间的关联,在潜在主题的挖掘和可视化展示等方面存在一定的局限。与现有研究不同,本课题使用词汇集聚关系表示同一主题内词汇之间的关联。从词汇集聚现象入手,研究潜在主题表示的内在机理;通过对传统向量空间进行转置、使用多维尺度模型,研究提取词汇集聚关系和实现词汇空间集聚的方法;使用邻近矩阵、质心邻近矩阵、属性叠加邻近矩阵来承载词汇之间和主题之间的关系,基于此设计多维度的潜在主题可视化方法和流程;设计情景模型和主题回溯机制,用于克服解释潜在主题可视化结果时的复杂性;构建潜在主题发现及可视化的原型系统,并在实际文本集合中进行应用、检验和评价。本课题将为文本集合主题发现提供新的研究视角和方法路径,研究成果可应用于文本知识发现、查询扩展等领域。

项目摘要

潜在主题可以表示文本集的主要内容,通过潜在主题发现和可视化,能够发现隐藏的知识结构和模式、发现潜在的规律特征,实现深层次的文本挖掘和知识发现。.本项目从词汇集聚的角度进行了潜在主题发现方法的研究。揭示了使用具有集聚关系的词汇集合表示潜在主题的内在机理,包括用具有集聚关系的词条集合表示潜在主题的原理、用转置向量空间中的邻近关系表示集聚关系的原理、用MDS将邻近关系投影到低维空间的原理。通过对传统向量空间进行转置、使用多维尺度模型,提出了在可视空间中表示和提取词汇集聚关系的方法。使用邻近矩阵、质心邻近矩阵、属性叠加邻近矩阵来承载词汇之间和主题之间的关系,设计了多维度的潜在主题可视化方法和流程。设计了潜在主题可视化过程中的情景模型和主题回溯机制,用于克服解释潜在主题可视化结果时的复杂性。开发了潜在主题发现及可视化的原型系统,实现了多层次的潜在主题发现和可视化展示。.综合运用课题中提出的方法和工具,对美国数据处理服务业上市公司招股说明书中的风险文本进行了潜在主题识别与发现,以揭示数据处理服务业存在的风险。对社交问答平台问答糖尿病主题下的日志进行了潜在主题发现,揭示了糖尿病用户需求的变化和演进路径,从时间的维度拓展和延伸了申报书原有的研究内容,实现了潜在主题发展与演化的探测和揭示。.基于以上研究,本课题共出版专著1部,获软件著作权1项,发表(含录用)学术论文12篇,其中双盲审国际期刊论文5篇(含SSCI/SCIE期刊论文4篇)、EI源刊论文1篇、CSSCI索引期刊论文4篇、CPCI-SSH检索国际会议论文1篇、国际会议海报1篇。研究成果已成功在武汉高睿投资管理有限公司、湖北省技术交易所等单位应用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

基于脉搏波的中医体质自动辨识系统研究初探

基于脉搏波的中医体质自动辨识系统研究初探

DOI:10.11842/wst.2017.10.017
发表时间:2017
3

基于数据挖掘治疗过敏性紫癜肾炎用药规律探讨

基于数据挖掘治疗过敏性紫癜肾炎用药规律探讨

DOI:R277.5;TP311.13
发表时间:2019
4

高光谱图谱融合检测羊肉中饱和脂肪酸含量

高光谱图谱融合检测羊肉中饱和脂肪酸含量

DOI:
发表时间:2020
5

融合多种支持度定义的频繁情节挖掘算法

融合多种支持度定义的频繁情节挖掘算法

DOI:10.13328/j.cnki.jos.005851
发表时间:2020

赵一鸣的其他基金

批准号:71874130
批准年份:2018
资助金额:50.00
项目类别:面上项目
批准号:51404256
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:30972450
批准年份:2009
资助金额:31.00
项目类别:面上项目
批准号:30271112
批准年份:2002
资助金额:18.00
项目类别:面上项目
批准号:39470606
批准年份:1994
资助金额:7.00
项目类别:面上项目
批准号:49273173
批准年份:1992
资助金额:9.00
项目类别:面上项目
批准号:30640085
批准年份:2006
资助金额:10.00
项目类别:专项基金项目
批准号:60573054
批准年份:2005
资助金额:22.00
项目类别:面上项目
批准号:48770107
批准年份:1987
资助金额:2.00
项目类别:面上项目
批准号:49573184
批准年份:1995
资助金额:11.00
项目类别:面上项目
批准号:40073016
批准年份:2000
资助金额:21.00
项目类别:面上项目
批准号:39870696
批准年份:1998
资助金额:11.00
项目类别:面上项目
批准号:81272393
批准年份:2012
资助金额:65.00
项目类别:面上项目

相似国自然基金

1

基于主题发现的图像语义理解与识别

批准号:61165009
批准年份:2011
负责人:李志欣
学科分类:F0604
资助金额:50.00
项目类别:地区科学基金项目
2

基于主题网络的用户内在兴趣发现及演进研究

批准号:61502247
批准年份:2015
负责人:李华康
学科分类:F0205
资助金额:21.00
项目类别:青年科学基金项目
3

面向商务智能的思维主题发现

批准号:71272161
批准年份:2012
负责人:高学东
学科分类:G0209
资助金额:55.00
项目类别:面上项目
4

基于潜在出行主题模型的民航旅客大数据挖掘与分析

批准号:U1633103
批准年份:2016
负责人:刘杰
学科分类:F01
资助金额:36.00
项目类别:联合基金项目