基于多模态融合的语义表示学习方法

基本信息

批准号：61872113

项目类别：面上项目

资助金额：64.00

负责人：陈清财

学科分类：

依托单位：哈尔滨工业大学

批准年份：2018

结题年份：2022

起止时间：2019-01-01 - 2022-12-31

项目状态：已结题

项目参与者：刘欣,吴湘平,潘囿丞,陈凯,陈静,张立赛,朱田恬,张伟林

关键词：

多模态融合词法语义表示学习词嵌入

结项摘要

Recently, based on deep learning techniques, researchers have reached great achievements on picture/text and video/text union learning. Nevertheless, most of the natural language processing (NLP) tasks still not benefit from such achievements. On the other hand, it is well known that the semantic understanding of human beings is based on the fusion of multiple senses like vision, auditory, symbols of language etc. Up to now, most of NLP applications are based on the word embeddings generated via the single model representation learning of text. The foundation of text based word embedding is not fulfilled, which becomes one of the main bottlenecks of further improvement of natural understanding and language generation applications. To address this problem, building the solid foundation of semantic is emergent. In this paper, we goal at the construction of common multimodal fusion word semantic representations. First, for different type of words, we construct the standard learning corpora for their multimodal fusion representation learning (MFRL) respectively. Then the MFRL models and methods are designed and implement by the constraints of semantic relationships proposed by common semantic knowledge bases. The reinforcement learning mechanism is applied to normalize different semantic representation spaces learnt by different MFRL models. At last, a common and full covered multimodal word embeddings will be presented. The research of this project is expected to make significant contributions to the natural language understanding and generating applications, as well as to the study of nature of word senses.

近年来，借助深度学习技术，研究者在图片文本联合学习、视频文本联合学习等领域取得了重要成果。但是，集成了语言知识的多模态联合学习并未能在自然语言处理中得到有效应用。尽管人类对语义的认知与理解显然是建立在视觉、听觉与语言符号等多模态融合基础上的，但当前自然语言应用仍然主要构建在单文本表示学习所获得的词嵌入基础之上，语义表示基础并不完整，这在一定程度上阻碍了语义的深度理解、语言生成等应用的发展。为解决这一问题，迫切需要夯实语义表示的认知基础。本项目以构建通用的、基于多模态融合的语义表示为目标，通过对不同类别词语构建相应的多模态融合语义学习标准数据集，并将语义关系作为约束和通用学习目标，构建多模态融合语义表示学习的模型与方法，通过强化学习机制来完成不同模态学习得到的语义空间的规范化，从而初步构建起覆盖完整词典的多模态词嵌入，为自然语言理解与语言生成等应用的发展以及探究语义的本质特征等作出积极贡献。

项目摘要

尽管人类对语义的认知与理解显然是建立在视觉、听觉与语言符号等多模态融合基础上的，但当前自然语言应用仍然主要构建在单文本表示学习的基础之上，语义表示基础并不完整，这在一定程度上阻碍了语义的深度理解、语言生成等应用的发展。为解决这一问题，课题组根据项目研究计划对基于多模态融合的语义表示方法开展了以下四个方面进行了研究：1）基于图文联合学习的语义表示学习机制研究，实现了快速高效的多模态表示方法，提高了模型对于答案语义关联信息的学习表示能力；2）多模态联合学习的语义表示空间规范化研究，实现了高效、可解释、且鲁棒性强的语义表示；3）多模态联合学习语料库的构建规范指定和语料库建设，构建了大规模中文开放医学知识图谱及开放式医学知识在线协同构建平台，构造了书法知识图谱，提出了信息抽取方法，构建了医学知识表达体系；4）基于多模态融合的语义表示应用技术研究，课题组在图像分类、图像修复、医学领域中的自动诊断问题。进行了场景化的落地研究。.项目研究过程中共发表了包括JAMIA，TMM等重要国际期刊和AAAI等重要国际会议在内的论文29篇，其中CCF A/T1的会议、期刊文章6篇，CCF B会议、期刊论文14篇；申请发明专利4项；培养了博士生8人，硕士生13名；项目的研究已经华为公司完成了工业化场景的应用；基于相关研究工作，课题组还建立了深圳中国书法数字仿真技术工程实验室，建设了书法知识图谱与在线检索教学平台、多风格数字墨水仿真技术和系统、书法数字化技术和查询系统等；课题组成员共参加了20余次重要国际会议，承办了5次重要的国际会议和1次重要的学术论坛。综上，课题按照申请书的研究按计划执行，达到了项目计划目标，取得了预期的研究成果。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：

发表时间：2021

DOI：

发表时间：2020

DOI：10.3788/CJL201946.0801003

发表时间：2019

DOI：10.13609/j.cnki.1000-0313.2022.04.019

发表时间：2022

陈清财的其他基金

批准号：61173075

批准年份：2011

资助金额：56.00

项目类别：面上项目

批准号：60703015

批准年份：2007

资助金额：20.00

项目类别：青年科学基金项目

批准号：61473101

批准年份：2014

资助金额：80.00

项目类别：面上项目

相似国自然基金

基于多模态语义图谱的视频特征表示研究

批准号：61902104

批准年份：2019

负责人：年福东

学科分类：F0210

资助金额：27.00

项目类别：青年科学基金项目

基于多模态融合机制的视频语义表征方法研究

批准号：61702313

批准年份：2017

负责人：侯素娟

学科分类：F0210

资助金额：25.00

项目类别：青年科学基金项目

基于多模态特征语义融合的网络不良视频识别

批准号：61103056

批准年份：2011

负责人：左海强

学科分类：F0605

资助金额：21.00

项目类别：青年科学基金项目

多源数据融合的表示与学习方法研究

批准号：61672364

批准年份：2016

负责人：李凡长

学科分类：F0607

资助金额：63.00

项目类别：面上项目

基于多模态融合的语义表示学习方法

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于国产化替代环境下高校计算机教学的研究

基于铁路客流分配的旅客列车开行方案调整方法

基于多色集合理论的医院异常工作流处理建模

基于腔内级联变频的0.63μm波段多波长激光器

结直肠癌免疫治疗的多模态影像及分子影像评估

陈清财的其他基金

网络信息自主整合关键技术研究

异构信息互动模型中的关键技术研究

构式语法的计算模型研究

相似国自然基金