面向中文的看图造句若干关键问题研究

基本信息

批准号：61672523

项目类别：面上项目

资助金额：64.00

负责人：李锡荣

学科分类：

依托单位：中国人民大学

批准年份：2016

结题年份：2020

起止时间：2017-01-01 - 2020-12-31

项目状态：已结题

项目参与者：杨刚,许洁萍,陈师哲,张香玲,卞昊穹,蓝玮毓,霍雨佳,王晓旭,郑鹤

关键词：

性能评测双语数据集上下文建模图像句子生成中文句子生成模型

结项摘要

This proposal is about image captioning: Automatically generate a sentence to describe the main visual content of a given image. Although Chinese is the most spoken language in the world, current works focus on how to generate English sentences. Notice that due to the unreliability of machine translation, we cannot obtain high-quality Chinese sentences by simply applying machine translation upon the output of an English image captioning model. To the best of our knowledge, no work has been on building Chinese captioning models in the public literature. This proposal proposes to add Chinese captions to images. Due to the lack of image sentence datasets for this kind of research, our research will departure from data construction, and study data, model, and evaluation metrics in a systematic manner. More specifically, this proposal will study 1) how to construct a large-scale bilingual image sentence dataset, 2) how to devise an Chinese captioning model by deep learning from the bilingual dataset, 3) how to leverage context information beyond image content to improve the model, and 4) how to evaluate the quality of the generated sentences in a way that is more consistent with the vision of Chinese audience. This research will provide data and techniques for a number of tasks including Chinese image captioning, semantic based visual information retrieval, and cross-language visual information retrieval.

本项目研究图片句子生成问题：给定一张图片，自动产生一个能描述其主要视觉内容的自然语句。尽管中文是世界上使用人数最大的母语，现有工作专注于如何给图片生成英文句子描述。注意到机器翻译的不可靠性使得我们不能简单地通过翻译英文模型的输出来得到高质量的中文句子。就我们知识所及，目前尚未有公开文献讨论中文句子生成问题。本项目提出面向中文的图片句子生成。由于缺乏开展此类研究所需的中文句子库，本项目以建立双语句子库为起点，在数据、模型、评测三方面进行系统性地研究。更具体地，本项目将研究1)如何构建大规模双语图片句子库、2)如何基于深度网络与双语资源建立图片的中文句子生成模型、3)如何利用图片内容之外的上下文信息及其潜在语义改进该模型、4)如何以更符合中文用户认知的方式自动评价句子质量。本项目的研究成果将为图片中文句子生成、基于语义视觉信息检索、跨语言视觉信息检索等提供数据与技术支持。

项目摘要

本项目研究面向中文的图片句子生成问题：给定一张图片，自动产生一个能描述其主要视觉内容的中文自然语句。尽管中文是世界上使用人数最大的母语，但现有工作专注于如何给图片生成英文句子描述。注意到机器翻译的不可靠性使得我们不能简单地通过翻译英文模型的输出来得到高质量的中文句子。本项目以建立双语句子库为起点，在数据、模型、评测三方面进行系统性地研究。更具体地，本项目研究如何构建大规模双语图片句子库、如何基于深度网络与双语资源建立图片的中文句子生成模型、如何利用图片内容之外的上下文信息及其潜在语义改进该模型、如何以更符合中文用户认知的方式自动评价句子质量。本项目取得了如下的研究成果：1) 建成并发布大规模中英双语数据集COCO-CN，可用于图像标注、看图造句、跨语言检索等多种任务的; 2) 提出流畅度引导的跨语言学习算法，可以在没有中文训练数据的情形下，仅利用英文标注数据，训练一个高质量的中文看图造句模型；3) 利用标签预测模块感知上下文，并利用自动预测的标签对候选词语或候选句子进行重排序，改进生成句子的质量; 4) 提出基于跨语言、跨模态模型的自动评价算法，可以在没有中文答案的情形下，有效评估多种中文看图造句模型的有效性; 5) 提出了基于视觉特征空间的跨模态表示模型，用于跨语言图文匹配。本项目提出的方法在跨语言看图造句、跨语言图像检索、视频检索等任务上均表现出色。项目组哉在计算机学会推荐的刊物上发表论文24篇，含CCF A类长文8篇，IEEE Transactions论文6篇，获得中国多媒体大会ChinaMM 2017优秀论文奖。本项目在数据集、算法、论文发表、人才培养、国际交流等方面都达到了预期目标，为跨语言看图造句、跨语言视觉信息检索等新应用场景提供了数据和技术支持。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

李锡荣的其他基金

批准号：61303184

批准年份：2013

资助金额：28.00

项目类别：青年科学基金项目

相似国自然基金

面向个性化推荐服务用户隐私保护的若干关键问题研究

批准号：61762055

批准年份：2017

负责人：崔宗敏

学科分类：F0211

资助金额：36.00

项目类别：地区科学基金项目

面向中文指称概念的知识获取方法研究

批准号：61203284

批准年份：2012

负责人：王石

学科分类：F0607

资助金额：25.00

项目类别：青年科学基金项目

面向中文文本信息融合的句子排序研究

批准号：60703008

批准年份：2007

负责人：文卫东

学科分类：F0211

资助金额：18.00

项目类别：青年科学基金项目

量子密码若干关键问题研究

批准号：61772001

批准年份：2017

负责人：石润华

学科分类：F0206

资助金额：50.00

项目类别：面上项目

面向中文的看图造句若干关键问题研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

针对弱边缘信息的左心室图像分割算法

一种基于多层设计空间缩减策略的近似高维优化方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

智能煤矿建设路线与工程实践

二维FM系统的同时故障检测与控制

李锡荣的其他基金

基于网上弱标注数据的个性化图像标注研究

相似国自然基金