基于深度学习的句子相似度计算研究

基本信息

批准号：61672127

项目类别：面上项目

资助金额：62.00

负责人：黄德根

学科分类：

依托单位：大连理工大学

批准年份：2016

结题年份：2020

起止时间：2017-01-01 - 2020-12-31

项目状态：已结题

项目参与者：马建军,曹井香,张婧,张云霞,裴家欢,刘晓霞,梁晨,孟祥主,张聪

关键词：

句法语义分析句法分析

结项摘要

The existing sentence modeling methods based on deep learning focus primarily on the construction and improvement of deep neural network, in which too much emphasis is on automatic learning of the feature representation and abstraction, whereas the full-fledged systematic expert knowledge is not considered at all. Our project will focus on the key techniques of deep learning based sentence similarity calculation and its application to machine translation the languages of Chinese and Japanese. Based on the study of the characteristics of deep neural network and human cognitive process, we aim to improve the performance of sentence similarity calculation from the following three perspectives: firstly , we propose a word concept generalization method based on the word semantic computing, in which, the generalization granularity and standards of the semantic unit and the designing of generalization algorithms are our focus. We intend to integrate the expert knowledge into our generalization rules to improve learning ability of sentence patterns and sentence embedding. Secondly, a new sentence embedding model based on deep learning is proposed, in which sentences will be treated as a hierarchy of “word-phrase-sentence” and the improved mechanisms of LSTM and Attention are used to build the deep learning network. Thirdly, a rational and efficient algorithm to compute the similarity between sentences will be designed, in which, the sentence similarity calculation will be considered simultaneously in the sentence modeling so that a global tuning of the parameters in both processes will be reached.

现有的基于深度学习的句子建模方法，主要侧重构建和改进深度网络框架，过于强调自动学习特征表达和抽象的过程，没有将体系完善的语言知识充分融合到学习框架中。本项目从汉语和日语两种语言入手，研究基于深度学习的句子相似度计算的关键技术并将其应用到机器翻译等领域。针对深度网络模型及人类对句子认知过程的特点，从三个方面提高句子相似度计算的性能：一是提出一种基于语义计算的单词概念泛化方法，研究语义单元的泛化粒度、泛化标准及泛化算法，将语言知识融合到泛化规则中，提高学习句子模式的能力和嵌入表示句子性能；二是提出一种基于深度学习的句子表示模型，将句子视为“词－短语－句子”的层级结构，综合考虑LSTM和Attention改进机制构建深度学习网络模型；三是设计一个合理、高效的算法来计算句子之间的相似性，主要考虑将相似度计算算法加入到句子建模过程中，达到句子建模过程和相似度计算过程的参数可全局调优的效果。

项目摘要

围绕句子相似度计算的若干关键问题展开了深入研究，主要研究内容包括词表示与词法分析、双语平行句对语言资源建设、短语识别及短语相似度计算、句法分析与句子相似度计算、句子相似度计算的应用研究等，取得研究结果如下：.（1）提出一种基于语义计算的单词概念泛化方法，研究语义单元的泛化粒度、泛化标准及泛化算法，将语言知识融合到泛化规则中，提高了嵌入表示句子性能；（2）提出一种基于深度学习的句子表示模型，将句子视为“词－短语－句子”的层级结构，设计实现了一种基于嵌入表示的相似度计算算法，显著提高了相似度计算的性能；(3)建立了基于词表示与词法分析、短语识别与泛化、句子表示与句法分析的句子相似度计算模型，并将其应用到机器翻译和机器阅读理解任务中，有效提高了机器翻译和机器阅读理解的性能。.研究结果表明，句子相似度计算方法对提高句子级的自然语言处理任务有显著的作用，另外，通过基于篇章的汉语自动分词研究，发现利用篇章的上下文信息可以消除部分句子级无法解决的语义歧义问题，基于篇章信息的自然语言处理研究有重要的意义。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.3969/j.issn.1000-0844.2017.05.0820

发表时间：2017

DOI：10.7500/aeps20191122006

发表时间：2020

黄德根的其他基金

批准号：U1936109

批准年份：2019

资助金额：70.00

项目类别：联合基金项目

批准号：61173100

批准年份：2011

资助金额：55.00

项目类别：面上项目

相似国自然基金

基于层级多模态的深度相似度学习方法研究

批准号：61806066

批准年份：2018

负责人：高欣健

学科分类：F0604

资助金额：24.00

项目类别：青年科学基金项目

面向语句间语义相似度计算基于词主体自治学习的强化学习机制研究

批准号：60975077

批准年份：2009

负责人：关毅

学科分类：F0609

资助金额：32.00

项目类别：面上项目

基于相似度学习的异构数据聚类算法研究及其应用

批准号：61876193

批准年份：2018

负责人：王昌栋

学科分类：F0603

资助金额：65.00

项目类别：面上项目

运用排序和相似度学习进行基于区域的图像检索研究

批准号：61363046

批准年份：2013

负责人：黄伟

学科分类：F0210

资助金额：45.00

项目类别：地区科学基金项目

基于深度学习的句子相似度计算研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

铁路大跨度简支钢桁梁桥车-桥耦合振动研究

基于暂态波形相关性的配电网故障定位方法

黄德根的其他基金

面向大规模汉语新闻语料的实体抽取与自动摘要研究

跨语言信息检索中的机器翻译研究

相似国自然基金