融合语义相似性和关联性的深层主题模型研究

基本信息
批准号:61602036
项目类别:青年科学基金项目
资助金额:21.00
负责人:高扬
学科分类:
依托单位:北京理工大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:孙新,刘茜,董阔,魏林静,郭文浩,严西敏,欧阳童
关键词:
语义表示文本挖掘大数据机器学习
结项摘要

Due to an ever increasing amount of document data and complexities involved with analyzing them in practice, traditional information retrieval system, which relied on shallow semantic analysis, cannot fulfill the demanding requirements of obtaining extremely accurate information. It requires that machine can deeply understand the really semantic meaning. Among various approaches, a topic modelling approach, which discovers semantically meaningful topics from a document corpus, has been gaining popularity in the fields of data mining, machine learning, NLP tasks. However, every word in the model is independently initiated, which is not the case in reality. In this way, similarity- and relatedness between words are neglected. Neural network language model can improve word embedding representation and it simplifies the semantic computation in terms of Addition and subtraction. Furthermore, semantic relatedness between words can be extracted through pattern mining techniques, and the various kinds of pattern can generate hierarchical structure of semantics. Therefore, in this proposal, we intend to integrate semantic similarity- and relatedness into topic modelling, and creatively give a definition of deep semantic modelling. Finally, the effectiveness and generalization of the proposed model will be evaluated in the application of NLP tasks such as automatic question answering system and summarization system.

在当今信息过剩的时代,传统基于浅层语义分析手段所得到的信息检索系统已逐渐难以满足人们获取精准信息的强烈需求,这就要求机器做能到深度准确地理解语义信息。主题模型的研究近年受到广泛的关注,在大数据环境下它能体现强大的语义类别属性,且系统扩展性很强,已成功运用于数据挖掘、机器学习和自然语言处理等领域。但其模型初始化假设为每个单词是独立分布存在的,这与实际情况不符,它忽略了词语之间的相似性和关联性。基于神经网路语言模型学习而成的词汇向量化表示可以将语义相似度简化为简单的加减运算,但是它在多义表达和全局分析能力较弱。此外,通过关联模式挖掘技术可以提取出语义的关联性,产生不同形式的模式集合可以形成语义层级结构。因此,本课题将综合考虑语义的主题类别性、相似性、关联性,创新性地定义基于主题的深层语义模型,最终将其应用于自然语言处理领域的自动问答系统和文摘系统,验证其有效性和普遍适用性。

项目摘要

传统基于浅层语义分析手段以无法满足当今海量数据下人们对精准信息获取的需求。本项目通过研究深度语义表示模型,提取重要信息的摘要系统以及关键信息引导的文本生成来满足用户对精准信息的需求。本项目研究主题增强的语义表示,深入挖掘突出类别性和关联性特征的统一联合语义表示框架和信息抽取技术。此外,该研究引入知识信息,提出一种新的结合知识结构聚散度的语义表示模型。这些模型在信息检索、问答系统以及文本摘要系统得到了有效的验证并达到国际先进水平。抽取式的信息获取方式仍然存在信息冗余,为了对海量信息进一步精简和重组,该项目还深入研究了基于文本自动生成的摘要技术,提出了融合全局概念主题的生成式摘要模型,并且提出了概念指针网络,将更具有概括能力的语言提炼出来完成摘要任务。生成式摘要的效果在通用的CNN/DailyMail、NYT、GigaWord数据上达到国际领先水平。项目整体从语义表示、信息抽取、文本生成三方面逐步挖掘深度语义信息,抽取用户所需并生成全新文本作为输出,具有重要的研究意义,并通过问答系统验证其可行性和应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

高扬的其他基金

批准号:51206088
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:61405056
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:31200404
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目
批准号:30371313
批准年份:2003
资助金额:7.00
项目类别:面上项目
批准号:30540069
批准年份:2005
资助金额:8.00
项目类别:专项基金项目
批准号:81373226
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:61603010
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:31500340
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:30771987
批准年份:2007
资助金额:28.00
项目类别:面上项目
批准号:61503043
批准年份:2015
资助金额:22.00
项目类别:青年科学基金项目
批准号:61602453
批准年份:2016
资助金额:21.00
项目类别:青年科学基金项目
批准号:31570465
批准年份:2015
资助金额:63.00
项目类别:面上项目
批准号:81072489
批准年份:2010
资助金额:31.00
项目类别:面上项目
批准号:10603005
批准年份:2006
资助金额:36.00
项目类别:青年科学基金项目
批准号:51605379
批准年份:2016
资助金额:22.00
项目类别:青年科学基金项目
批准号:11372311
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:11702212
批准年份:2017
资助金额:21.00
项目类别:青年科学基金项目
批准号:41871080
批准年份:2018
资助金额:60.00
项目类别:面上项目

相似国自然基金

1

语义约束主题模型的细粒度商品特征和情感词提取研究

批准号:61662032
批准年份:2016
负责人:彭云
学科分类:F0202
资助金额:36.00
项目类别:地区科学基金项目
2

语义主题与社交关系融合的特定群体发现关键技术研究

批准号:61772075
批准年份:2017
负责人:张华平
学科分类:F0211
资助金额:61.00
项目类别:面上项目
3

基于语义分析和统计的自动主题标引研究

批准号:60872133
批准年份:2008
负责人:吕学强
学科分类:F0113
资助金额:30.00
项目类别:面上项目
4

基于词嵌入主题模型的语义稀疏型Web服务发现研究

批准号:61702305
批准年份:2017
负责人:田刚
学科分类:F0203
资助金额:25.00
项目类别:青年科学基金项目