基于AdvancedEAST的自然场景图像文本检测算法

最新推荐文章于 2024-08-09 08:30:59 发布

原创

最新推荐文章于 2024-08-09 08:30:59 发布 · 507 阅读

本文介绍了EAST文本检测模型，一种端到端的高效文本检测方法，支持多方向文本定位。相较于CTPN，EAST简化了流程并提高了检测效果。AdvancedEAST是基于EAST的改进版，使用Keras实现，长文本预测更准确。网络结构包含得分地图、顶点编码和几何信息预测。尽管存在对长文本和垂直文本预测的限制，但通过训练不同尺寸的图像可以提高效果。数据集包括tianchi ICPR dataset和ICPR MTWI 2018。训练过程中涉及图像预处理、预训练模型和NMS损失计算。

转自：https://www.sohu.com/a/364698680_787107

EAST文本检测与Keras实现

之前介绍了文本检测中的CTPN方法，详情可参见 Pytorch文本行检测，深度学习网络结构CTPN ，虽然该方法在水平文本的检测方面效果比较好，但是对于竖直文本或者倾斜的文本，该方法的检测就很差，因此，在该方法之后，很多学者也提出了各种改进方法，其中，有一篇比较经典的就是旷世科技在2017年提出来的EAST模型，论文的全称为《EAST: An Efficient and Accurate Scene Text Detector》，论文的下载地址如下：

论文地址：https://arxiv.org/pdf/1704.03155.pdf

Github：

https://github.com/argman/EAST

https://github.com/kurapan/EAST

优点

1）步骤简化：传统的文本检测方法和一些基于深度学习的文本检测方法，大多是Multi-stage，在训练时需要对多个Stage调优，这势必会影响最终的模型效果，而且非常耗时。针对上述存在的问题，EAST提出了端到端的文本检测方法，消除中间多个Stage(如候选区域聚合，文本分词，后处理等)，直接预测文本行，其架构就是下图中对应的E部分，跟前面的方法比起来的确少了比较多的过程。（类似于经典的CTPN架构）