This proposal is about image captioning: Automatically generate a sentence to describe the main visual content of a given image. Although Chinese is the most spoken language in the world, current works focus on how to generate English sentences. Notice that due to the unreliability of machine translation, we cannot obtain high-quality Chinese sentences by simply applying machine translation upon the output of an English image captioning model. To the best of our knowledge, no work has been on building Chinese captioning models in the public literature. This proposal proposes to add Chinese captions to images. Due to the lack of image sentence datasets for this kind of research, our research will departure from data construction, and study data, model, and evaluation metrics in a systematic manner. More specifically, this proposal will study 1) how to construct a large-scale bilingual image sentence dataset, 2) how to devise an Chinese captioning model by deep learning from the bilingual dataset, 3) how to leverage context information beyond image content to improve the model, and 4) how to evaluate the quality of the generated sentences in a way that is more consistent with the vision of Chinese audience. This research will provide data and techniques for a number of tasks including Chinese image captioning, semantic based visual information retrieval, and cross-language visual information retrieval.
本项目研究图片句子生成问题:给定一张图片,自动产生一个能描述其主要视觉内容的自然语句。尽管中文是世界上使用人数最大的母语,现有工作专注于如何给图片生成英文句子描述。注意到机器翻译的不可靠性使得我们不能简单地通过翻译英文模型的输出来得到高质量的中文句子。就我们知识所及,目前尚未有公开文献讨论中文句子生成问题。本项目提出面向中文的图片句子生成。由于缺乏开展此类研究所需的中文句子库,本项目以建立双语句子库为起点,在数据、模型、评测三方面进行系统性地研究。更具体地,本项目将研究1)如何构建大规模双语图片句子库、2)如何基于深度网络与双语资源建立图片的中文句子生成模型、3)如何利用图片内容之外的上下文信息及其潜在语义改进该模型、4)如何以更符合中文用户认知的方式自动评价句子质量。本项目的研究成果将为图片中文句子生成、基于语义视觉信息检索、跨语言视觉信息检索等提供数据与技术支持。
本项目研究面向中文的图片句子生成问题:给定一张图片,自动产生一个能描述其主要视觉内容的中文自然语句。尽管中文是世界上使用人数最大的母语,但现有工作专注于如何给图片生成英文句子描述。注意到机器翻译的不可靠性使得我们不能简单地通过翻译英文模型的输出来得到高质量的中文句子。本项目以建立双语句子库为起点,在数据、模型、评测三方面进行系统性地研究。更具体地,本项目研究如何构建大规模双语图片句子库、如何基于深度网络与双语资源建立图片的中文句子生成模型、如何利用图片内容之外的上下文信息及其潜在语义改进该模型、如何以更符合中文用户认知的方式自动评价句子质量。本项目取得了如下的研究成果:1) 建成并发布大规模中英双语数据集COCO-CN,可用于图像标注、看图造句、跨语言检索等多种任务的; 2) 提出流畅度引导的跨语言学习算法,可以在没有中文训练数据的情形下,仅利用英文标注数据,训练一个高质量的中文看图造句模型;3) 利用标签预测模块感知上下文,并利用自动预测的标签对候选词语或候选句子进行重排序,改进生成句子的质量; 4) 提出基于跨语言、跨模态模型的自动评价算法,可以在没有中文答案的情形下,有效评估多种中文看图造句模型的有效性; 5) 提出了基于视觉特征空间的跨模态表示模型,用于跨语言图文匹配。本项目提出的方法在跨语言看图造句、跨语言图像检索、视频检索等任务上均表现出色。项目组哉在计算机学会推荐的刊物上发表论文24篇,含CCF A类长文8篇,IEEE Transactions论文6篇,获得中国多媒体大会ChinaMM 2017优秀论文奖。本项目在数据集、算法、论文发表、人才培养、国际交流等方面都达到了预期目标,为跨语言看图造句、跨语言视觉信息检索等新应用场景提供了数据和技术支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
面向个性化推荐服务用户隐私保护的若干关键问题研究
面向中文指称概念的知识获取方法研究
面向中文文本信息融合的句子排序研究
量子密码若干关键问题研究