跳转至

Lec10 Recognition

约 480 个字 预计阅读时间 2 分钟

Question

待补充!! 感觉我对深度学习的理解还不是很透彻,本篇内容没有过多加入我自己的思路。

Semantic segmentation

如上图所示,语义分割就是识别图像中存在的内容以及位置。

FCN

我们一般使用FCN(Fully Convolutional Networks)来解决语义分割问题。在传统的FCN基础上,我们加上了两个trick:

  • Pooling and Unpooling: 如果不加入池化层,则效率太低,但是由于普通的池化会缩小图片的尺寸,为了得到和原图等大的语义分割图,我们需要向上采样/反卷积。

  • Skip Layer: 作用是优化结果。因为我们在pooling,Unpooling的过程中丢失了信息,因此在不同的unpooling层中,我们额外增加原pooling层的输入。

该网络被称作U-Net

CRF

U-Net输出之后,我们会再加一步条件随机场优化能量函数:

\[ E(x)=\sum_i \theta_i(x_i)+\sum_{i,j}\theta_{i,j}(x_i,x_j) \]

Evaluation metric

评估语义分割结果,我们使用Intersection-over-union(IoU)

Object detection

最大的困难就是我们不知道图像中有几个物体,要输出几个bounding box

Region proposals

基于图片提取出若干可能包含物体的区域

Two-Stage Model

  • First stage: run once per image
    • Backbone network
    • RPN
  • Second stage:run once per image
    • Crop features: Rol pool/align
    • Predict object class
    • Predict bbox offset

R-CNN

Non-Max Suppression 有时候同一个物体,网络会输出两个Bounding box,这时候我们需要选取概率最大的。

Fast R-CNN

Faster R-CNN

Faster R-CNN使用CNN来选取RP

RPN

Single-stage object detection

YOLO

Instance segmentation

  • Faster R-CNN + Mask Prediction

对于目标检测的每个框中的物体,判断每个像素是属于前景还是背景

Human pose estimation

Single Human

  • 直接预测关节点
  • 用热力图表示关节点

Multiple humans

  • Top-down:

    • Detect humans and detect keypoints in each bbox
    • Example: Mask R-CNN
  • Bottom-up:

    • Detect keypoints and group keypoints to form humans
    • Example: OpenPose


最后更新: 2023年12月13日 18:49:31
创建日期: 2023年12月13日 18:49:31