目录
一、研究背景
场景文本检测已广泛应用于在线教育、产品搜索、视频场景解析等领域。得益于深度学习技术,文本检测方法在文本为规则形状的图像上取得了很大的进展。近年来,因为任意形状文本检测能很好地适应实际应用,所以受到越来越多的关注。基于分割的方法引发了一波任意形状文本检测的浪潮,这一类方法通过像素级预测结果来分割出每个文本实例,很好地适应了文本形状的变化。但是基于分割的方法会有两个问题。第一个问题是基于分割的方法往往无法很好地分离图像中紧密相邻的文本实例,另一个问题是,现有的基于分割的方法中最终检测到的文本轮廓往往含有大量的缺陷和噪声。
二、研究的目的
任意形状的文本检查更适用于实际场景。
三、方法设计
1、网络结构

图1 TextBPN网络结果图
该网络结构包括以ResNet-50为骨干网络形成的类似FPN结构、边界建议网络和自适应边界形变网络三个部分:
1)特征提取(多层特征融合策略):在ResNet-50网络的多层卷积上通过上采样和拼接进行特征融合,生成共享特征 ;
2)边界建议模型:由多层膨胀卷积组成,包括两个不同膨胀率的3 x 3卷积层和一个1 x 1卷积层,使用共享特征生成分类图、距离场图和方向场图,即先验信息
;
3)自适应边界形变模型(编码解码网络):通过GCN和RNN对边界拓扑结构和序列上下文进行学习,通过迭代完成粗边框的细化。

本文介绍了TextBPN网络,一种用于解决任意形状文本检测问题的深度学习方法。文章探讨了多层特征融合策略、边界建议模块和自适应边界形变模块,旨在提高文本检测的准确性和对复杂文本形态的适应性。通过实例和实验结果展示了其在实际场景中的优势。

2万+

被折叠的 条评论
为什么被折叠?



