MaskRCNN原理详解

上传人：痛*** 文档编号：172939044 上传时间：2022-12-07 格式：PPT 页数：10 大小：693.51KB

收藏版权申诉举报下载

第1页 / 共10页

第2页 / 共10页

第3页 / 共10页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《MaskRCNN原理详解》由会员分享，可在线阅读，更多相关《MaskRCNN原理详解（10页珍藏版）》请在装配图网上搜索。

1、Mask RCNN12/7/20222 Faster RCNNFaster R-CNN可以简单地看做“区域生成网络RPNs+Fast R-CNN”的系统，用区域生成网络代替Fast R-CNN中的Selective Search方法。Faster R-CNN这篇论文着重解决了这个系统中的三个问题：1.如何设计区域生成网络；2.如何训练区域生成网络；3.如何让区域生成网络和Fast RCNN网络共享特征提取网络。在整个Faster R-CNN算法中，有三种尺度：1.原图尺度：原始输入的大小。不受任何限制，不影响性能。2.归一化尺度：输入特征提取网络的大小，在测试时设置，源码中opts.test_

2、scale=600。anchor在这个尺度上设定。这个参数和anchor的相对大小决定了想要检测的目标范围。3.网络输入尺度：输入特征检测网络的大小，在训练时设置，源码中为224*2243 Faster RCNN1：向CNN网络【如VGG-16】输入任意大小图片:2：经过CNN网络前向传播至最后共享的卷积层，一方面得到供RPN网络输入的特征图，另一方面继续前向传播至特有卷积层，产生更高维特征图；3：供RPN网络输入的特征图经过RPN网络得到区域建议和区域得分，并对区域得分采用非极大值抑制【阈值为0.7】，输出其Top-N【文中为300】得分的区域建议给RoI池化层；4：第2步得到的高维特征图和

3、第3步输出的区域建议同时输入RoI池化层，提取对应区域建议的特征；5：第4步得到的区域建议特征通过全连接层后，输出该区域的分类得分以及回归后的bounding-box。4 RPNRPN的核心思想是使用CNN卷积神经网络直接产生Region Proposal，使用的方法本质上就是滑动窗口（只需在最后的卷积层上滑动一遍），因为anchor机制和边框回归可以得到多尺度多长宽比的Region Proposal。RPN网络也是全卷积网络（FCN，fully-convolutional network），可以针对生成检测建议框的任务端到端地训练，能够同时预测出object的边界和分数。只是在CNN上额外增

4、加了2个卷积层（全卷积层cls和reg）5 AnchorsRPN：训练样本考察训练集中的每张图像：a.对每个标定的真值候选区域，与其重叠比例最大的anchor记为前景样本 b.对a)剩余的anchor，如果其与某个标定重叠比例大于0.7，记为前景样本；如果其与任意一个标定的重叠比例都小于0.3，记为背景样本 c.对a),b)剩余的anchor，弃去不用。d.跨越图像边界的anchor弃去不用代价函数同时最小化两种代价：a.分类误差 b.前景样本的窗口位置偏差 6 Roi max poolingroi_pool层将每个候选区域均匀分成MN块，对每块进行max pooling。将特征图上大小不一的

5、候选区域转变为大小统一的数据，送入下一层。对于roi max pooling，一个输入节点可能和多个输出节点相连。7 Mask RCNN其中黑色部分为原来的 Faster-RCNN，红色部分为在 Faster网络上的修改：1）将 Roi Pooling 层替换成了 RoiAlign；2）添加并列的 FCN 层（mask 层）；Mask-RCNN 的几个特点1）在边框识别的基础上添加分支网络，用于语义Mask 识别；2）训练简单，相对于 Faster 仅增加一个小的 Overhead，可以跑到 5FPS；3）可以方便的扩展到其他任务，比如人的姿态估计等；4）不借助 Trick，在每个任务上

6、，效果优于目前所有的 single-model entries；8 Mask RCNNMask-RCNN 技术要点通过 ResNeXt-101+FPN 用作特征提取网络，达到 state-of-the-art 的效果。采用 ROIAlign 替代 RoiPooling（改进池化操作）。引入了一个插值过程，先通过双线性插值到14*14，再 pooling到7*7，很大程度上解决了仅通过 Pooling 直接采样带来的 Misalignment 对齐问题。虽然 Misalignment 在分类问题上影响并不大，但在 Pixel 级别的 Mask 上会存在较大误差。结果对比能够看到 ROIAlign 带来较大的改进，Stride 越大改进越明显。每个 ROIAlign 对应 K*m2 维度的输出。K 对应类别个数，即输出 K 个mask，m对应池化分辨率。Loss 函数定义：Lmask(Cls_k)=Sigmoid(Cls_k)，平均二值交叉熵（average binary cross-entropy）Loss，通过逐像素的 Sigmoid 计算得到。9 双线性插值THANK YOU

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

MaskRCNN原理详解

最新文档

相关资源

相关搜索