融合语义相似性和关联性的深层主题模型研究

基本信息

批准号：61602036

项目类别：青年科学基金项目

资助金额：21.00

负责人：高扬

学科分类：

依托单位：北京理工大学

批准年份：2016

结题年份：2019

起止时间：2017-01-01 - 2019-12-31

项目状态：已结题

项目参与者：孙新,刘茜,董阔,魏林静,郭文浩,严西敏,欧阳童

关键词：

语义表示文本挖掘大数据机器学习

结项摘要

Due to an ever increasing amount of document data and complexities involved with analyzing them in practice, traditional information retrieval system, which relied on shallow semantic analysis, cannot fulfill the demanding requirements of obtaining extremely accurate information. It requires that machine can deeply understand the really semantic meaning. Among various approaches, a topic modelling approach, which discovers semantically meaningful topics from a document corpus, has been gaining popularity in the fields of data mining, machine learning, NLP tasks. However, every word in the model is independently initiated, which is not the case in reality. In this way, similarity- and relatedness between words are neglected. Neural network language model can improve word embedding representation and it simplifies the semantic computation in terms of Addition and subtraction. Furthermore, semantic relatedness between words can be extracted through pattern mining techniques, and the various kinds of pattern can generate hierarchical structure of semantics. Therefore, in this proposal, we intend to integrate semantic similarity- and relatedness into topic modelling, and creatively give a definition of deep semantic modelling. Finally, the effectiveness and generalization of the proposed model will be evaluated in the application of NLP tasks such as automatic question answering system and summarization system.

在当今信息过剩的时代，传统基于浅层语义分析手段所得到的信息检索系统已逐渐难以满足人们获取精准信息的强烈需求，这就要求机器做能到深度准确地理解语义信息。主题模型的研究近年受到广泛的关注，在大数据环境下它能体现强大的语义类别属性，且系统扩展性很强，已成功运用于数据挖掘、机器学习和自然语言处理等领域。但其模型初始化假设为每个单词是独立分布存在的，这与实际情况不符，它忽略了词语之间的相似性和关联性。基于神经网路语言模型学习而成的词汇向量化表示可以将语义相似度简化为简单的加减运算，但是它在多义表达和全局分析能力较弱。此外，通过关联模式挖掘技术可以提取出语义的关联性，产生不同形式的模式集合可以形成语义层级结构。因此，本课题将综合考虑语义的主题类别性、相似性、关联性，创新性地定义基于主题的深层语义模型，最终将其应用于自然语言处理领域的自动问答系统和文摘系统，验证其有效性和普遍适用性。

项目摘要

传统基于浅层语义分析手段以无法满足当今海量数据下人们对精准信息获取的需求。本项目通过研究深度语义表示模型，提取重要信息的摘要系统以及关键信息引导的文本生成来满足用户对精准信息的需求。本项目研究主题增强的语义表示，深入挖掘突出类别性和关联性特征的统一联合语义表示框架和信息抽取技术。此外，该研究引入知识信息，提出一种新的结合知识结构聚散度的语义表示模型。这些模型在信息检索、问答系统以及文本摘要系统得到了有效的验证并达到国际先进水平。抽取式的信息获取方式仍然存在信息冗余，为了对海量信息进一步精简和重组，该项目还深入研究了基于文本自动生成的摘要技术，提出了融合全局概念主题的生成式摘要模型，并且提出了概念指针网络，将更具有概括能力的语言提炼出来完成摘要任务。生成式摘要的效果在通用的CNN/DailyMail、NYT、GigaWord数据上达到国际领先水平。项目整体从语义表示、信息抽取、文本生成三方面逐步挖掘深度语义信息，抽取用户所需并生成全新文本作为输出，具有重要的研究意义，并通过问答系统验证其可行性和应用价值。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2017

DOI：10.16383/j.aas.2016.c150880

发表时间：2016

DOI：

发表时间：2022

DOI：10.3969/j.issn.1003-0077.2018.11.009

发表时间：2018

DOI：10.3724/sp.j.1089.2022.19009

发表时间：2022

高扬的其他基金

批准号：51206088

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：61405056

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：31200404

批准年份：2012

资助金额：24.00

项目类别：青年科学基金项目

批准号：30371313

批准年份：2003

资助金额：7.00

项目类别：面上项目

批准号：30540069

批准年份：2005

资助金额：8.00

项目类别：专项基金项目

批准号：81373226

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：61603010

批准年份：2016

资助金额：19.00

项目类别：青年科学基金项目

批准号：31500340

批准年份：2015

资助金额：20.00

项目类别：青年科学基金项目

批准号：30771987

批准年份：2007

资助金额：28.00

项目类别：面上项目

批准号：61503043

批准年份：2015

资助金额：22.00

项目类别：青年科学基金项目

批准号：61602453

批准年份：2016

资助金额：21.00

项目类别：青年科学基金项目

批准号：31570465

批准年份：2015

资助金额：63.00

项目类别：面上项目

批准号：81072489

批准年份：2010

资助金额：31.00

项目类别：面上项目

批准号：10603005

批准年份：2006

资助金额：36.00

项目类别：青年科学基金项目

批准号：51605379

批准年份：2016

资助金额：22.00

项目类别：青年科学基金项目

批准号：11372311

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：11702212

批准年份：2017

资助金额：21.00

项目类别：青年科学基金项目

批准号：41871080

批准年份：2018

资助金额：60.00

项目类别：面上项目

相似国自然基金

语义约束主题模型的细粒度商品特征和情感词提取研究

批准号：61662032

批准年份：2016

负责人：彭云

学科分类：F0202

资助金额：36.00

项目类别：地区科学基金项目

语义主题与社交关系融合的特定群体发现关键技术研究

批准号：61772075

批准年份：2017

负责人：张华平

学科分类：F0211

资助金额：61.00

项目类别：面上项目

基于语义分析和统计的自动主题标引研究

批准号：60872133

批准年份：2008

负责人：吕学强

学科分类：F0113

资助金额：30.00

项目类别：面上项目

基于词嵌入主题模型的语义稀疏型Web服务发现研究

批准号：61702305

批准年份：2017

负责人：田刚

学科分类：F0203

资助金额：25.00

项目类别：青年科学基金项目

融合语义相似性和关联性的深层主题模型研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

论大数据环境对情报学发展的影响

基于SSVEP 直接脑控机器人方向和速度研究

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于细粒度词表示的命名实体识别研究

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

高扬的其他基金

Ia型超新星爆炸中燃烧学过程的理论研究

金属纳米天线阵列的光束调制和角度色散性质及其应用研究

紫色土丘陵区土壤有机碳、磷竞争吸附-解吸机制及其流失响应研究

下丘脑外侧区神经免疫调节相关神经元功能下调模式研究

下丘脑外侧区神经免疫调节相关信号研究

应激损伤模型鼠海马脑区微环境中IL-6/IL-6R/sIL-6R/gp130信号的传递模式及其生物学意义

新常态下基于进化算法的金融产业结构多目标优化研究

钙离子对淡水水库浮游植物群落组成的影响及机制研究

LH和AA脑区参与神经免疫调节功能的信号与传导通路研究

未知环境中移动机器人探索式路径规划方法研究

面向用户评论的论辩挖掘方法研究

亚热带流域13C、15N输出分异特征及其水文驱动机制

CD38信号通路在应激诱导的神经损伤与神经免疫调节功能间的作用研究

利用Halo轨道流形设计小推力深空飞行最优转移轨道

基于复合载药的可降解药物控释系统结构优化设计研究

伽利略木卫探测飞行轨道设计与优化

基于金属微纳枝晶表面双电层电容式压力响应原理的水凝胶基水下柔性电子皮肤构建及其流体水动力学检测性能研究

亚热带流域植硅体碳与硅循环耦合机制及其迁移转化过程

相似国自然基金