共现潜在语义向量空间模型及其语义核的构建与应用研究

基本信息
批准号:71503151
项目类别:青年科学基金项目
资助金额:17.00
负责人:牛奉高
学科分类:
依托单位:山西大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:贾君枝,马瑞敏,王菲菲,王钰,陈琳,成红红,惠月月,李彤彤
关键词:
文献聚合信息检索知识发现文本挖掘语义关联
结项摘要

The text data is currently the main form of the era of big data, and text data mining has become an important way of information access and knowledge discovery. Vector Space Model (VSM) provides a very good solution for information retrieval. with further research, there was a semantic vector space model (SVSM) and similar models, making retrieval and text mining results better. But still not enough: either a vector representation of semantic performance is not enough, or too costly to extract semantic, or high computational complexity. In view of this, I initially proposed co-occurrence latent semantic vector space model (CLSVSM). In the literature clustering, the model not only reduces the cost of semantic extraction, also got good results. However, the computational complexity is very high, and the model is not conductive to be used widly. Semantic kernel method can standardize the calculation process, reduce complexity, and can be extended applications, such as text information retrieval, classification, aggregation literature, machine learning and other fields. The project is planned on the basis of optimized CLAVSM, adopting semantic core idea, to build CLSVSM semantics kernal and applied to literature topic clustering to test its effectiveness.

文本数据是当前大数据的时代的主要形式,对文本数据的挖掘成为信息获取和知识发现的重要途径。向量空间模型(VSM)为信息检索提供了非常好的解决方法,随着研究的深入,又出现了语义向量空间模型(SVSM)及类似模型,使检索效果和文本挖掘的效果更好。但依然存在不足:或者是向量表示中语义表现不够,或者是语义提取成本过高,或者是计算复杂度高。鉴于此,本人初步提出了共现潜在语义向量空间模型(CLSVSM),在文献聚类应用中,不仅降低了语义提取成本,还得到了较好的效果。但计算复杂度还是很高,而且不利于推广。语义核方法可以规范计算过程,降低复杂度,并可以推广应用,比如文本信息检索、分类、文献聚合、机器学习等领域。本项目拟在优化CLAVSM的基础上,采用语义核的思想,构建CLSVSM的语义核并应用于文献主题聚类中以检验其效果。

项目摘要

大数据时代,基于文本向量表示的文本数据挖掘方法成为信息获取和知识发现的重要途径。共现潜在语义向量空间模型(CLSVSM)是一个新的文本表示模型,相对于向量空间模型(VSM),可以提高聚类精度,进而有效服务于信息检索等研究。本项目就新模型进行了以下研究:(一)从共现分布对模型解释,研究模型的广泛适应性,并对其改进与扩展:包括利用不同统计量(最大值,最小值,中位数,平均值)来构建模型,建立三元共现潜在语义向量空间模型(T - CLSVSM);(二)对模型进行了降维研究,一方面建立截尾共现潜在语义向量空间模型(TCLSVSM),另一方面借助潜在语义分析的思想,基于CLSVSM构建了语义核函数(CLSVSM_K)。.建立模型之后,基于CNKI和WOS中的中英文文献数据,通过聚类实验来检验(采用纯度、熵值、F三个指标)模型的优劣。主要结论有:(1)模型对中英文文献聚类均有显著提高,而模型改进中所采用的四个统计量中,最大值模型的聚类效果最佳;(2)三元CLSVSM在中英文数据集下,聚类效果都优于CLSVSM;(3)基于截尾模型的聚类结果仅次于最大值模型,但仍比其余三个模型聚类效果要好,且显著降低了共现信息补充的运算成本与计算复杂度;(4)语义核模型的优势最明显,经过分解特征词空间大幅压缩,且聚类结果明显优于其他算法,此外,CLSVSM_K 在更大的数据集上降维效果比较明显,当保留 95%和 98%的信息量时,聚类效果不减,且聚类结果更加稳定。.本项目的研究为文本表示提供了新的选择,模型可操作性较强,可应用于语义挖掘和信息检索等的研究与实践。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016
4

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
5

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

DOI:10.13249/j.cnki.sgs.2020.08.003
发表时间:2020

牛奉高的其他基金

相似国自然基金

1

视频语义向量空间模型与不良视频识别

批准号:60872142
批准年份:2008
负责人:李弼程
学科分类:F0113
资助金额:25.00
项目类别:面上项目
2

基于内在与潜在语义特征的声音段落级语义识别方法研究

批准号:61471145
批准年份:2014
负责人:韩纪庆
学科分类:F0113
资助金额:86.00
项目类别:面上项目
3

概念语义空间及其应用

批准号:60173017
批准年份:2001
负责人:何清
学科分类:F06
资助金额:18.00
项目类别:面上项目
4

社会网络空间的语义计算模型与方法

批准号:61070156
批准年份:2010
负责人:陈华钧
学科分类:F0207
资助金额:32.00
项目类别:面上项目