Recently, based on deep learning techniques, researchers have reached great achievements on picture/text and video/text union learning. Nevertheless, most of the natural language processing (NLP) tasks still not benefit from such achievements. On the other hand, it is well known that the semantic understanding of human beings is based on the fusion of multiple senses like vision, auditory, symbols of language etc. Up to now, most of NLP applications are based on the word embeddings generated via the single model representation learning of text. The foundation of text based word embedding is not fulfilled, which becomes one of the main bottlenecks of further improvement of natural understanding and language generation applications. To address this problem, building the solid foundation of semantic is emergent. In this paper, we goal at the construction of common multimodal fusion word semantic representations. First, for different type of words, we construct the standard learning corpora for their multimodal fusion representation learning (MFRL) respectively. Then the MFRL models and methods are designed and implement by the constraints of semantic relationships proposed by common semantic knowledge bases. The reinforcement learning mechanism is applied to normalize different semantic representation spaces learnt by different MFRL models. At last, a common and full covered multimodal word embeddings will be presented. The research of this project is expected to make significant contributions to the natural language understanding and generating applications, as well as to the study of nature of word senses.
近年来,借助深度学习技术,研究者在图片文本联合学习、视频文本联合学习等领域取得了重要成果。但是,集成了语言知识的多模态联合学习并未能在自然语言处理中得到有效应用。尽管人类对语义的认知与理解显然是建立在视觉、听觉与语言符号等多模态融合基础上的,但当前自然语言应用仍然主要构建在单文本表示学习所获得的词嵌入基础之上,语义表示基础并不完整,这在一定程度上阻碍了语义的深度理解、语言生成等应用的发展。为解决这一问题,迫切需要夯实语义表示的认知基础。本项目以构建通用的、基于多模态融合的语义表示为目标,通过对不同类别词语构建相应的多模态融合语义学习标准数据集,并将语义关系作为约束和通用学习目标,构建多模态融合语义表示学习的模型与方法,通过强化学习机制来完成不同模态学习得到的语义空间的规范化,从而初步构建起覆盖完整词典的多模态词嵌入,为自然语言理解与语言生成等应用的发展以及探究语义的本质特征等作出积极贡献。
尽管人类对语义的认知与理解显然是建立在视觉、听觉与语言符号等多模态融合基础上的,但当前自然语言应用仍然主要构建在单文本表示学习的基础之上,语义表示基础并不完整,这在一定程度上阻碍了语义的深度理解、语言生成等应用的发展。为解决这一问题,课题组根据项目研究计划对基于多模态融合的语义表示方法开展了以下四个方面进行了研究:1)基于图文联合学习的语义表示学习机制研究,实现了快速高效的多模态表示方法,提高了模型对于答案语义关联信息的学习表示能力;2)多模态联合学习的语义表示空间规范化研究,实现了高效、可解释、且鲁棒性强的语义表示;3)多模态联合学习语料库的构建规范指定和语料库建设,构建了大规模中文开放医学知识图谱及开放式医学知识在线协同构建平台,构造了书法知识图谱,提出了信息抽取方法,构建了医学知识表达体系;4)基于多模态融合的语义表示应用技术研究,课题组在图像分类、图像修复、医学领域中的自动诊断问题。进行了场景化的落地研究。.项目研究过程中共发表了包括JAMIA,TMM等重要国际期刊和AAAI等重要国际会议在内的论文29篇,其中CCF A/T1的会议、期刊文章6篇,CCF B会议、期刊论文14篇;申请发明专利4项;培养了博士生8人,硕士生13名;项目的研究已经华为公司完成了工业化场景的应用;基于相关研究工作,课题组还建立了深圳中国书法数字仿真技术工程实验室,建设了书法知识图谱与在线检索教学平台、多风格数字墨水仿真技术和系统、书法数字化技术和查询系统等;课题组成员共参加了20余次重要国际会议,承办了5次重要的国际会议和1次重要的学术论坛。综上,课题按照申请书的研究按计划执行,达到了项目计划目标,取得了预期的研究成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于多模态语义图谱的视频特征表示研究
基于多模态融合机制的视频语义表征方法研究
基于多模态特征语义融合的网络不良视频识别
多源数据融合的表示与学习方法研究