面向敏感网络图像过滤的原生数字图像文本提取关键技术研究

基本信息

批准号：61201424

项目类别：青年科学基金项目

资助金额：24.00

负责人：王恺

学科分类：

依托单位：南开大学

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：杨巨峰,刘群忠,张青峰,向导,李娇凤,焦姣,马秀博,李明达,李成学

关键词：

光学字符识别基于内容的图像过滤原生数字图像文本分割文字信息

结项摘要

Born-digital images are generated directly on the computer. Harmful text transmitted online is easily converted into born-digital images to avoid text-based filtering. In previous studies on text extraction from complex images, component connector-based methods have been widely used. However, it is a difficult task for born-digital images to generate component connectors because born-digital images are inherently low-resolution for online transfer and often suffer from anti-aliasing. To solve this problem, a hierarchical optimization model, that allows integration of features computed at different levels of the quantization hierarchy, will be set up in this study. Parameters of the model will be automatically estimated by supervised training. To reduce the computational time for solving the hierarchical model, superpixels, that generated by over-segmentation of color images, will be considered as an alternative for pixels. Furthermore, techniques of using multiple segmentations or soft decision will be applied during over-segmentation to ensure that superpixels align well with the boundary of characters. Aiming at the application of content-based web image filtering, predefined keywords will be integrated into the hierarchical model, so that the images embedded with harmful text can be detected with high recall rate.

原生数字图像是用计算机软件生成的图像。不良文本信息可以很容易地转为原生数字图像在网络传播，从而避过文本过滤技术。原生数字图像文本提取工作面临分辨率低、边缘柔化所引起的连通体生成困难这一问题，使得以往复杂图像文本提取研究中常用的基于连通体分析的方法失效。本课题拟构建多级优化模型，通过像素点级、连通体级、文字级的同步优化解决连通体生成困难问题；采用基于样本库的自适应学习解决优化模型的参数选取问题；利用彩色图像过分割等方法解决模型求解效率问题，并基于过分割结果融合及软决策方式解决超像素边界与文字边界的匹配问题。针对敏感网络图像过滤应用，将敏感关键词信息融入到优化模型中，以高召回率检测敏感图像，解决不良文本内容以图像方式在网络传播所带来的社会问题。

项目摘要

原生数字图像是用计算机软件生成的图像。不良文本信息可以很容易地转为原生数字图像在网络传播，从而避过文本过滤技术。本项目中，我们将复杂图像文本提取过程分为如下三个步骤：文本区域提取、文字分割和文字识别。针对提取过程的每一个步骤，本项目进行了如下研究：第一，基于滑动窗口利用纹理特征进行文本块的判别，并按预定义的规则将多个文本块合并为文本区域。第二，利用小波的优良去噪性，提出了基于小波变换的图像二值化方法。先将待处理复杂图像转化为灰度图像，然后利用小波分解、多层小波滤波、小波重构将图像中的前景文字作为噪音去除，从而得到图像的背景分布；将背景分布与灰度图像做差运算得到图像的前景分布；再计算局部阈值；最终得到二值化图像。通过与其他著名的八种二值化方法进行对比实验，表明基于小波变换的二值化方法优于其他方法。然后采用深度遍历方法和形态学的膨胀操作对二值化图像进行连通体抽取，选取连通体关键特征，基于条件随机场模型进行文本分割。选取合理的实验参数，CRF模型能够很好地对连通体进行分类，达到文本分割的目的。第三，使用改进的HOG特征对文字进行识别。考虑在倾斜、光照不均、噪音干扰、边缘柔化等多种异态情况下的复杂图像的字符识别问题，提出基于稀疏编码与梯度方向直方图相结合的SC-HOG方法来进行字符识别研究。此方法先利用稀疏编码得到基向量和稀疏系数，通过重构图像滤除噪音、处理边缘柔化；然后利用梯度方向直方图抽取复原图像的字符边缘梯度特征，削弱倾斜和光照的影响；最后将获取的特征向量送入分类器，实现异态字符的识别。通过在设计字符集和现实字符集上进行字符识别实验表明，SC-HOG方法能够对上述复杂情况的图像中包含的文本进行有效的识别。最后，利用上述关键技术的研究成果，构建基于关键词的敏感网络图像过滤系统。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：

发表时间：

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.3788/CJL201946.0801003

发表时间：2019

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

王恺的其他基金

批准号：81401534

批准年份：2014

资助金额：23.00

项目类别：青年科学基金项目

批准号：81600462

批准年份：2016

资助金额：19.00

项目类别：青年科学基金项目

批准号：81772000

批准年份：2017

资助金额：55.00

项目类别：面上项目

批准号：51402148

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：61604010

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：71301124

批准年份：2013

资助金额：20.50

项目类别：青年科学基金项目

批准号：71671131

批准年份：2016

资助金额：48.00

项目类别：面上项目

批准号：61875082

批准年份：2018

资助金额：62.00

项目类别：面上项目

批准号：91939112

批准年份：2019

资助金额：40.00

项目类别：重大研究计划

批准号：81660490

批准年份：2016

资助金额：39.00

项目类别：地区科学基金项目

相似国自然基金

面向英汉双向跨语言图像检索的文本分析关键技术研究

批准号：61170095

批准年份：2011

负责人：张玥杰

学科分类：F0211

资助金额：57.00

项目类别：面上项目

数字图像隐写检测关键特征的提取和优化理论研究

批准号：61379152

批准年份：2013

负责人：张敏情

学科分类：F0206

资助金额：73.00

项目类别：面上项目

笔迹图像中关键词语过滤技术研究

批准号：61462080

批准年份：2014

负责人：卡米力·木依丁

学科分类：F0210

资助金额：47.00

项目类别：地区科学基金项目

基于内容的文本过滤技术研究

批准号：60103014

批准年份：2001

负责人：黄萱菁

学科分类：F0211

资助金额：28.00

项目类别：联合基金项目

面向敏感网络图像过滤的原生数字图像文本提取关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

针对弱边缘信息的左心室图像分割算法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于腔内级联变频的0.63μm波段多波长激光器

信息熵-保真度联合度量函数的单幅图像去雾方法

王恺的其他基金

生物活性人工血管体内降解及血管再生调控

ACER3作用于C18:1-CER影响肝细胞氧化应激在非酒精性脂肪性肝炎的作用及机制研究

聚合物熔融纺丝纤维与脱细胞基质构成的杂化人工血管材料的构建与功能修饰研究

白光LED用石墨烯改性的量子点-聚合物复合材料制备及其发光机理研究

探索自旋界面对自旋极化电子在铁磁-有机杂化自旋电子存储器的意义

不确定条件下基于分群策略的柔性Flow Shop调度问题研究

非常规突发事件下多医院手术室联合计划与调度研究

高效有机-无机复合阳离子蓝光钙钛矿量子点发光二极管材料与器件研究

仿生电信号血管材料调控血管组织再生与功能稳态的作用研究

GRP78通过β-catenin/TCF4通路调控HOXB9影响肝癌侵袭转移的作用及机制研究

相似国自然基金