潜在语义分析中特征传递优化技术的研究

基本信息
批准号:61073123
项目类别:面上项目
资助金额:33.00
负责人:蔡东风
学科分类:
依托单位:沈阳航空航天大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:季铎,尹宝生,苗雪雷,周俏丽,白宇,蔡云雷,张西龙,张晓莹
关键词:
潜在语义分析特征传递奇异值分解
结项摘要

潜在语义分析是一种无指导的特征抽取方法,该方法通过文档间词语共现的传递关系,改善了自然语言理解中对同义和多义等问题的处理能力,从语义层次上推动了信息检索、文本分析等多个研究领域的发展。但目前的潜在语义分析研究中,对特征传递关系的质量评价、空间选择等关键问题缺乏深入的研究和探讨。因此,本课题从改进特征传递质量的角度出发,提出了潜在语义分析优化的研究思路,重点研究改善特征传递质量的优化方法,探讨利用分析过程中的中间矩阵进行多重潜在语义分析的优化技术。同时,考虑到与先验知识和现有文本分析技术的结合,提出了基于伪文档的潜在语义分析方法,满足了潜在语义分析在人工指导和时效性方面的实际需求;采用文本分割、聚类等技术细化了特征间共现粒度,为构建更为良好的特征传递关系提供了更有效的融合策略。本课题的研究将为潜在语义分析的研究提供新的研究思路,其研究成果也将为语义层次的信息处理技术提供新的技术基础。

项目摘要

课题围绕潜在语义分析的特征传递关系的优化问题,分别从特征-文档矩阵的优化、传递关系的优化、模型融合的优化三个方面进行了研究工作,充分挖掘自然语言自身的研究特点,通过特征选择、文本分割、信息抽取等技术手段完善传统潜在语义分析模型。. 课题按研究计划,围绕基于伪文档的潜在语义分析优化方法,重点开展了伪文档的抽取和构成方面的研究工作,特别是提出了在组块层次标注基础上应用马尔可夫逻辑网分层次进行中文专利开放式实体关系抽取的方法,深层次地挖掘信息背后的语义信息,这种统计推理方法能较为灵活地处理同义结构,并作为重要的传递关系以伪文档的形式可有效改进潜在语义分析的性能。同时,本研究内容也是首次开展中文的开发式信息抽取技术的研究,相关研究结论为本技术的后期发展提供重要的参考,建立的中文专利依存树库也将为其他面向中文专利文本的分析技术提供基础。基于主题的潜在语义分析方法,以文档内的子主题识别和划分为出发点,提出了子语段和伪语段两种构成方法,分别利用自然标记、文本分割、特征分布等信息进行语段构成,力求从多角度构建合理的共现单元,最终利用系统融合的技术方法进行各语段潜在语义模型的融合,实现总体性能10%以上的性能提高。随着上述的研究深入,在资源和主题文档的不断增加的情况下,潜在语义分析方法面临模型训练的效率问题,因此,课题在潜在语义分析模型优化方法中提出了基于增广空间的潜在语义分析优化方法,将不同语料中获得的潜在语义空间进行融合,形成特征潜在语义的增广空间,而后在此增广空间中进行原始语料到潜在语义空间的映射,在确保传统方法性能的基础上,将原始的模型训练方法转换为不同子集的训练过程,提高模型的应用价值。与模型本身的优化不同,课题研究中还采用了系统融合的技术手段,进一步探索从不同角度、不同共现空间进行潜在语义分析模型的构建,并在结果融合中获得了较好的性能表现。. 为了保证上述研究工作能够进行科学合理的评价,课题的研究成果均选择专利文献的分类任务(NTCIR国际评测)作为评测标准,确保上述优化工作对系统性能的真实贡献。最终,在基于主题的潜在语义分析方法中进行系统的有效融合,实现了专利分类准确率10%以上的优化提升。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

蔡东风的其他基金

相似国自然基金

1

基于近红外光谱和潜在语义分析技术的中药研究方法

批准号:61007058
批准年份:2010
负责人:龙长江
学科分类:F0504
资助金额:20.00
项目类别:青年科学基金项目
2

基于内在与潜在语义特征的声音段落级语义识别方法研究

批准号:61471145
批准年份:2014
负责人:韩纪庆
学科分类:F0113
资助金额:86.00
项目类别:面上项目
3

基于专利语义分析的潜在竞争对手识别方法研究

批准号:71774052
批准年份:2017
负责人:史敏
学科分类:G0414
资助金额:42.00
项目类别:面上项目
4

传递签名关键技术及密码学原语中信任传递语义的研究

批准号:90718001
批准年份:2007
负责人:谷利泽
学科分类:F0102
资助金额:50.00
项目类别:重大研究计划