全卷积网络

上传人:m**** 文档编号:174861502 上传时间:2022-12-17 格式:DOCX 页数:11 大小:461.50KB
收藏 版权申诉 举报 下载
全卷积网络_第1页
第1页 / 共11页
全卷积网络_第2页
第2页 / 共11页
全卷积网络_第3页
第3页 / 共11页
资源描述:

《全卷积网络》由会员分享,可在线阅读,更多相关《全卷积网络(11页珍藏版)》请在装配图网上搜索。

1、Jon atha n Long 发表了F ully Con voluti onal Networks for Sema ntic Segme ntati on。全卷积网络 Fully Convolutional NetworksCNN 与 FCN通常CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征图(feature map)映射成一个固定长 度的特征向量。以 AlexNet 为代表的经典 CNN 结构适合于图像级的分类和回归任务,因为它们最后 都期望得 到整个输入图像的一个数值描述(概率),比如 AlexNet 的 ImageNet 模型输出一个 1000 维 的向量表示输入图

2、像属于每一类的概率(softmax归一化)。栗子:下图中的猫,输入AlexNet,得到个长为1000的输出向量,表示输入图像属于每一类的概率,其中在 tabby cat这一类统计概率最高。FCN对图像进行像素级的分类,从而解决了语义级别的图像分割(semantic segmentation )问题。与经典的CNN 在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全联接层+ softmax 输出) 不同, FCN 可以接受任 意尺寸的输入图像,采用反卷积层对最后个卷积层的 feature map 进行上采样, 使它恢复到输入图像相同的尺 寸,从而可以对每个像素都产生了个预测,同时保留了原

3、始输入图像中的 空间信息,最后在上采样的特征图上 进行逐像素分类。最后逐个像素计算 softmax 分类的损失,相当于每 个像素对应个训练样本。下图是 Longjon96forward/inferenceI” 14 II加讨$ 3撐213.backward/ learning一用于语义分割所采用的全卷积网络(FCN)的结构示意图:简单的来说, FCN 与 CNN 的区域在把于 CNN 最后的全连接层换成卷积层,输出的是张已经 Label 好 的图片。其实,CNN的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征:较浅的卷积层感知域sificationnetwork13x 1

4、3227 x 22755 x 5527 x 27tabby cat较小,学习到一些局部区域的特征;较深的卷积层具有较大的感知域,能够学习到更加抽象一 些的特征。这些抽象特征对物体的大小、位置和方向等敏感性更低,从而有助于识别性能的提高。下图 CNN 分类网络的示意图:con volutio n这些抽象的特征对分类很有帮助,可以很好地判断出一幅图像中包含什么类别别的物体,但是因为丢失了一些物体 的细节,不能很好地给出物体的具体轮廓、指出每个像素具体属于哪个物体,因此做到精确的分割 就很有难度。 传统的基于CNN的分割方法:为了对一个像素分类,使用该像素周围的一个图像块作为CNN的输入用于训练 和

5、预测。这种方法有几个缺点:一是存储开销很大。例如对每个像素使用的图像块的大小为15x15 ,然后不断滑动 窗,每次滑动的窗给CNN进行判别分类,因此则所需的存储空间根据滑动窗的次数和大小急剧上升。二是 计算效率低下。相邻的像素块基本上是重复的,针又竭个像素块逐个计算卷积,这种计算也有很大程度上的重复 三是像素块大小的限制了感知区域的大小。通常像素块的大小比整幅图像 的大小小很多,只能提取一些局部的特 征,从而导致分类的性能受到限制。而全卷积网络(FCN)则是从抽象的特征中恢复出每个像素所属的类别。即从图像级别的分类进一步延伸到像素级 别的分类。全连接层- 成卷积层 全连接层和卷积层之间唯一的不

6、同就是卷积层中的神经元只与输入数据中的一个局部区域连接,并且在卷 积列中 的神经元共享参数。然而在两类层中,神经元都是计算点积,所以它们的函数形式是一样的。因此, 将此两者相互 转化是可能的:对于任i卷积层,都存在一八能实厮它一样的前向传播函数的全连接层。权重矩阵是一个巨大的矩阵,除了 某些特定块,其余部分都是零。而在其中大部分块中,元素都是相等的。相反,任何全连接层都可以被转化为卷积层。比如,f K=4096的全连接层,输入数据体的尺寸是7*7*512 ,这个全连接层可以被等效地看做一个F=7/P=,S=l,K=4096的卷积层。换句话说,就是将滤波器的尺寸设置为和输入数据体的尺寸一致了。因

7、为只有一个单独的深度列覆盖并滑过输 入数据 体,所以输出将变成1*1*4096 ,这个结果就使用初始的那个全连接层一样了。全连接层转化为卷积层:在两种变换中,将全连接层转化为卷积层在实际运用中更加有用。假设一个卷积 神经网络 的输入是224x224x3的图像,一系列的卷积层和下采样层将图像数据变为尺寸为7x7x512的激活数据体。AlexNet 使用了两个尺寸为 4096 的全连接层,最后一个有1000 个神经元的全连接层用于 计算分类评分。我们 可以将这3 个全连接层中的任意一个转化为卷积层:针对第一个连接区域是7x7x512的全连接层,令其滤波器尺寸为F=7,这样输出数据体就为1x1x40

8、96 了。针对第二个全连接层,令其滤波器尺寸为F=L这样输出数据体为1x1x4096.对最后一个全连接层也做类似的,令其F=l,最终输出为1x1x1000实际操作中,每次这样的变换都需要把全连接层的权重W重塑成卷积层的滤波器。那么这样的转化有什么作用呢? 它在下面的情况下可以更高效:让卷积网络在一张更大的输入图片上滑动,得到多个输出,这 样的转化可以让我 们在单个向前传播的过程中完成上述的操作。举个栗子:如果我们想让224x224尺寸的浮窗,以步长为32在384x384的图片上滑动,把每个经停的位置都 带入卷积网络,最后得到6x6个位置的类别得分。上述的把全连接层转换成卷积层的做法会更简便。如

9、果224x224 的输入图片经过卷积层和下采样层之后得到了 7x7x512啲数组,那么,384x384的大图片直接经过同样的卷积 层和下采样层之后会得到12x12x512啲数组。然后再经过上面由3个全连接层转化得到的3个卷积层,最终 得到6x6x1000的输出(12 - 7)/1 + 1 = 6).这个结果正是浮窗在原图经停的6x6个位置的得分!面对384x384的图像,让(含全连接层)的初始卷积神经网络以32像素的步长独立对图像中的224x224块进行 多次评价,其效果和使用把全连接层变换为卷积层后的卷积神经网络进行一次前向传播 是一样的。如下图所示,FCN将传统CNN中的全连接层转化成卷积

10、层,对应CNN网络FCN把最后三层全连接层转换成为 三层卷积层。在传统的 CNN 结构中,前5 层是卷积层,第6 层和第7 层分别是一个长度为 4096 的一维向量, 第 8 层是长度为 1000 的一维向量, 分别对应1000 个不同类别的概率。 FCN 将这3 层表示为卷积层,卷积核的大小 (通道数,宽,高)分别为(4096,1,1). (4096,1,1). (1000,1,1)。看上去数字上并没有什么差别,但是卷积跟全连接 是不一样的概念和计算过程,使用的是之前CNN已经训练好的权值和偏置,但是不一样的在于权值和偏置是有自 己的范围,属于自己的一个卷积核。因此 FCN 网络 中所有的层

11、都是卷积层,故称为全卷积网络。becoming fully convolutional乡夕夕彳227 x 22755 x 5527 x 2713x 13con volutio n下图是一个全卷积层,与上图不一样的是图像对应的大小下标, CNN 中输入的图像大小是同意固定 resize 成227x227大小的图像,第一层pooling后为55x55 ,第二层pooling后图像大小为27x27 ,第五层pooling后的图像大小为而FCN输入的图像是H*W大小,第层pooling后变为原图大小的1/4 ,第二层变为原图大小的1/8 ,第五层变为原图大小的 1/16 ,第八层变为原图大小的 1/3

12、2(勘误:其实真正代码当中第一层是1/2,以此类推)oconvolutio n经过多次卷积和pooling以后,得到的图像越来越小,分辨率越来越低。其中图像到H/32宣W/32的时候图片 是最小的一层时,所产生图叫做 heatmap 热图,热图就是我们最重要的高维特诊图”得到高维特 征的 heatmap 之后就是最重要的一步也是最后的一步对原图像进行 upsampling ,把图像进行放大、放 大、放大,到原图像的 大小。convo lutionHx WH/4 x W/4H/8 x W/H/16x W/16fconv, pool, non li nearity最后的输出是 1000 张 hea

13、tmap 经过 upsampling 变为原图大小的图片,为了对每个像素进行分类预测 label 成最后已经进行语义分割的图像,这里有一个小 trick ,就是最后通过逐个像素地求其在 1000 张图 像该像素位置 的最大数值描述(概率)作为该像素的分类。因此产生了一张已经分类好的图片,如下图右侧有狗狗和猫猫的图 end-to-end, pixels-to-pixels networkH/32 X W/32|Hx Wupsampli ngpixelwise output * lossupsampling相较于使用被转化前的原始卷积神经网络对所有36 个彳立置进行迭代计算,使用转化后的卷积神经网

14、 络进 行一次前向传播计算要高效得多,因为 36 次计算都在共享计算资源。这一技巧在实践中经常使用, 一次来获得更 好的结果。比如,通常将一张图像尺寸变得更大,然后使用变换后的卷积神经网络来对空间 上很多不同位置进行 评价得到分类评分,然后在求这些分值的平均值。最后,如果我们想用步长小于 32 的浮窗怎么办?用多次的向前传播就可以解决。比如我们想用步长为 16 的浮窗。 那么先使用原图在转化后的卷积网络执行向前传播,然后分别沿宽度,沿高度,最后同时沿宽度和高度,把原始图片分别平移16 个像素,然后把这些平移之后的图分别带入卷积网络。如下图所示,当图片在网络中经过处理后变成越小的图片,其特征也越

15、明显,就像图像中颜色所示,当然啦,最后一层的图片不再是一个1个像素的图片,而是原图像H/32XW/32大小的图,这里为了简化而画成像素而 已。spectrum of deep featurescombine where (local, shallow) with what (global, deep)如下图mage对原图像进行卷积convl. pooll后原图像缩小为1玉;之后对图像进行第二次conv2、pool2 后图像缩小为1/4 ;接着继续对图像进行第三次卷积操作conv3. pool3缩小为原图像的1/8,此时保留pool3 的featureMap ;接着继续对图像进行第四次卷积操作c

16、onv4、pool4,缩小为原图像的1/16,保留pool4的 featureMap ;最后对图像进行第五次卷积操作conv5、pool5,缩小为原图像的1/32,然后把原来CNN操作中的全连接变成卷积操作conv6、conv7 ,图像的featureMap数量改变但是图像大小依然为原图的1/32,此时图像不再叫featureM叩而是叫heatMap。fuse features into deep jet现在我们有1/32尺寸的heatMap , 1/16尺寸的featureMap和1/8尺寸的featureMap , 1/32尺寸的heatMap进行upsampling操作之后,因为这样的操

17、作还原的图片仅仅是conv5中的卷积核中的特征,限于精度问题不能够很好地还原图像当中的特征,因此在这里向前迭代。把conv4中的卷积核对上一次叩sampling之 后的图进行反卷积补充细节(相当于一个差值过程),最后把conv3中的卷积核对刚才叩sampling之后的图像 进行再次反卷积补充细节,最后就完成了整个图像的还原。skip layersinuigc convl pool! conv2 p( x12 conv3 pool3 conv4 jxxU cotivS pools COIIVG-7interp + sum缺点在这里我们要注意的是 FCN 的缺点:1. 是得到的结果还是不够精细。进行 8 倍上采样虽然比 32 倍的效果好了很多,但是上采样的结果还是 上傲模糊和平滑,对图像中的细节不敏感。2.是对各个像素进行分类, 没有充分考虑像素与像素之间的关系。忽略了在通常的基于像素分类的分 割方法中使用的空间规整(spatial regularization )步骤z缺乏空间一致性。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!