面向网络信息安全的图像视频中的文字语义理解理论与方法

基本信息

批准号：61733007

项目类别：重点项目

资助金额：270.00

负责人：刘文予

学科分类：

依托单位：华中科技大学

批准年份：2017

结题年份：2022

起止时间：2018-01-01 - 2022-12-31

项目状态：已结题

项目参与者：白翔,殷飞,王蕊,杨欣,王兴刚,张华,郭园方,李弼,唐芃

关键词：

文本识别文本检测网络空间内容安全场景文本语义理解

结项摘要

Text understanding has wide applications in network information security, human-computer interaction, and intelligent transportation, etc. Due to scene complexity, text diversity, and semantic latency, the performance of existing techniques for text detection and recognition in images/videos is not satisfactory which significantly limits their applications. This project aims at text understanding in images/videos for cyberspace content security by introducing a series of innovative, general, and effective methods for multi-language text detection, recognition, and understanding. Specifically, this project plans to 1) propose multi-language text representation model and general purpose representation transfer method; 2) address multi-language text detection and recognition under few-shot setting by systematically combining generative structure learning and discriminative statistical learning; 3) propose multimodal latent semantic perception methods based on images, videos and text, which achieves images/videos content aided relevance fusion analysis and address the bottleneck problem in sensitive images/videos identification and filtering. In the end, this proposal will 1) present methods which substantially improve the performance of text detection and recognition; 2) distribute a large-scale multi-language text dataset containing approximately100,000 images and organize text understanding related contests and competitions; 3) develop two prototype systems for sensitive text retrieval and illegal content monitoring respectively.

文本语义理解在网络信息安全、人机交互、智能交通等领域具有广阔的应用前景。由于技术和性能的限制，图像视频文本识别和理解距实用还有很大差距，原因在于场景复杂性、文本形式多样性以及语义隐藏性。本项目研究面向网络信息安全的图像视频文字语义理解理论与方法，提出一系列创新的、通用的、有效的多语言文本检测和识别、语义理解方法，包括跨语种通用多语言文本特征表示模型及通用特征的高效迁移方法，将生成式结构学习和区分式统计学习有机结合，解决小样本下的多语言文字检测和识别问题;提出图像视频与文本识别的多模态协同感知隐含语义的方法，实现图像视频内容辅助的关联融合分析，解决面向网络信息安全的敏感图像视频自动鉴别和过滤中的瓶颈问题。实质性地提高多语言文本检测和识别的性能；发布一个10万幅图规模、面向网络空间内容安全的多语言文本图像视频语义理解数据库并组织相关的竞赛；研发敏感词检索、敏感内容检测两个应用示范原型系统。

项目摘要

随着移动终端及互联网技术的不断发展，网络上图像与视频等媒体数据呈指数级增长。然而，部分媒体内容散布敏感言论、虚假信息等，给国家安全、社会稳定、群众生活带来了极大的危害。文本语义理解在网络信息安全、人机交互、智能交通等领域具有广阔的应用前景。由于技术和性能的限制，图像视频文本识别和理解距实用还有很大差距，原因在于场景复杂性、文本形式多样性以及语义隐藏性。本项目研究面向网络信息安全的图像视频文字语义理解理论与方法，在通用文本快速检测、语种鉴别、多语言文本识别、视频文本的跟踪与识别、图像视频中文本信息的融合理解等方面提出一系列创新、有效的模型和方法。本项目提出基于角点的文字检测方法，只需要一个局部感受野便可检测多方向、长文本，解决任意方向文字检测的难题。针对文本检测复杂度过高的问题，提出可微分的二值化操作，显著提升了文本检测算法的推理效率。提出了结合空间变换网络与注意力机制的文字识别方法，解决低质量文字中存在注意力漂移的问题和不规则文本的识别准确率低的问题，准确率超出当时最好方法10%。首次提出端到端的场景文字检测与识别算法。针对神经网络感受野大小与网络复杂度的矛盾，提出了一种新颖的循环十字型注意力机制，采用高效的十字形注意力机制替代全局注意力机制增强特征的上下文信息，并且大幅度降低了注意力机制的计算开销。提出了基于人类认知过程的多模态信息深度认知子空间聚类学习方法。通过赋予每个样本权重并动态评估样本的难易程度来更新权重，提高了聚类模型的鲁棒性。.项目研发的场景图像文字检测与识别技术搭载华为P40高端手机作为其标配的文字检测算法；开发的多语种文字图像舆情分析系统应用于公安部第三研究所等单位，提升了反恐应急响应能力；场景图像文字检测算法DBNet++应用于微信8.0版的图片文字提取功能。提出图像视频与文本识别的多模态协同感知隐含语义的方法，实现图像视频内容辅助的关联融合分析，解决面向网络信息安全的敏感图像视频自动鉴别和过滤中的瓶颈问题，研发了敏感词检索、敏感内容检测两个应用示范系统。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.3969/j.issn.1000-4440.2021.03.031

发表时间：2021

DOI：10.12005/orms.2019.0029

发表时间：2019

DOI：CNKI:SUN:YGXB.0.2018-01-012

发表时间：2018

刘文予的其他基金

批准号：60273099

批准年份：2002

资助金额：7.00

项目类别：面上项目

批准号：60372067

批准年份：2003

资助金额：6.00

项目类别：面上项目

批准号：69973018

批准年份：1999

资助金额：13.00

项目类别：面上项目

批准号：61572207

批准年份：2015

资助金额：67.00

项目类别：面上项目

批准号：60572063

批准年份：2005

资助金额：23.00

项目类别：面上项目

批准号：61173120

批准年份：2011

资助金额：56.00

项目类别：面上项目

批准号：60873127

批准年份：2008

资助金额：33.00

项目类别：面上项目

相似国自然基金

面向图像语义理解的对抗机器学习理论与方法

批准号：61876130

批准年份：2018

负责人：韩亚洪

学科分类：F0604

资助金额：64.00

项目类别：面上项目

多民族文字识别及理解的理论与方法研究

批准号：61032008

批准年份：2010

负责人：丁晓青

学科分类：F0113

资助金额：230.00

项目类别：重点项目

网络信息感知的视频语义分析与检索

批准号：61303075

批准年份：2013

负责人：栾焕博

学科分类：F0210

资助金额：23.00

项目类别：青年科学基金项目

社会媒体中图像隐含语义理解方法研究

批准号：61806016

批准年份：2018

负责人：李伟欣

学科分类：F0604

资助金额：24.00

项目类别：青年科学基金项目

面向网络信息安全的图像视频中的文字语义理解理论与方法

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于改进LinkNet的寒旱区遥感图像河流识别方法

二维FM系统的同时故障检测与控制

黄曲霉毒素B1检测与脱毒方法最新研究进展

基于直觉模糊二元语义交互式群决策的技术创新项目选择

GF-4序列图像的云自动检测

刘文予的其他基金

基于广义条件骨架的三维图形识别新方法研究

无线信道下的信道广义率失真模型研究

基于形态学的非刚体运动及变形的新方法研究

显著视觉相似性度量模型及应用

无线移动环境下复杂度可分级联合功率率失真模型

数据集多尺度特征提取与表达的视觉凹度方法

广义凸分解理论及应用

相似国自然基金