基于递归注意力模型的卷积神经网络:让精细化物体分类成为现实

如今,计算机视觉领域常见物体的图像识别和图像分类对大家来说已不再陌生,但提及精细化物体分类,或许不少人还不太了解。我们先放点图来一起感受一下精细化物体分类的“威力”~


大家先看看这两张图是同一种鸟吗?


1.jpg

先别急说答案,看了下面两张局部高清图再做决定。 


2.jpg

类似的例子还有很多,它们看起来整体外观十分相似,但细节特征反映了它们的差别。


3.jpg

就在前几日,最后一届ImageNet 榜单刚刚公布,最新的模型在图像分类任务上已经达到了top-5 结果预测错误率2.3%的水平。然而尽管分类精度如此之高,但由于类别不够精细化(注:ImageNet竞赛包含常见的1000个物体类别),使得这些模型在实际应用中往往无法满足用户的实际需求。


4.jpg


在日常生活中,我们可以很容易地识别出常见物体的类别(比如:计算机、手机、水杯等),但如果进一步去判断更为精细化的物体分类名称,比如去公园游览所见的各种花卉、树木,在湖中划船时遇到的各种鸟类,恐怕是专家也很难做到无所不晓。不过,也可见精细化物体分类所存在的巨大需求和潜在市场。


虽然精细化物体分类拥有广阔的应用前景,但同时也面临着艰巨的挑战。如下图所示,每一行的三种动物都属于不同种类,但其视觉差异却非常微小。要分辨他们,对于普通人来说绝非易事。


5.jpg

通过观察我们不难发现,对于精细化物体分类问题,其实形态、轮廓特征显得不那么重要,而细节纹理特征则起到了主导作用。目前,精细化分类的方法主要有以下两类:


  • 基于图像重要区域定位的方法。该方法集中探讨如何利用弱监督的信息自动找到图像中有判别力的区域,从而达到精细化分类的目的。


  • 基于图像精细化特征表达的方法。该方法提出使用高维度的图像特征(如:bilinear vector)对图像信息进行高阶编码,以达到准确分类的目的。