Maxima's Lab

[Paper Review (논문 리뷰)] SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation 본문

Paper Review

[Paper Review (논문 리뷰)] SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

Minima 2022. 8. 20. 13:37
728x90
SMALL

안녕하세요, 오늘은

"SegNet : A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation"

 

위 논문에 대해서 리뷰를 해보도록 하겠습니다.

 

SegNet은 Segmentic Pixel-wise Segmentation을 위한 모델이며, Encoder와 Decoder의 형태로 구성되어 있습니다.

모델의 전체 구조는 다음 그림과 같습니다.

 

SegNet의 아키텍처

위의 SegNet 아키텍처 내 좌측 Layer 구성이 Encoder, 우측 Layer  구성이 Decoder 입니다.

먼저, Encoder에 대한 내용입니다.

 

[Encoder, 인코더]

  • 위상적으로 VGG16의 Convolutional Layer와 동일하며, Fully Connected Layer 포함 이후 Layer가 제거된 상태
  • Convolution, Batch Normalization, ReLu, Pooling(Max Pooling)으로 구성

 

[Decoder, 디코더]

  • Encoder에서의 각 Max Pooling Layer의 Indices와 대응되는 Non-Linear Upsampling 수행
  • 위의 설명 처럼, Max Pooling Layer의 Indices와 대응시키므로써 Encoder-Decoder 간의 결합 용이, 매개 변수 감소 및 경계 부분을 묘사하는 데 탁월함
  • Upsampling(=Deconvolution), Convolution, Batch Normalization, Relu, Softmax로 구성

 


일반적으로 Encoder 네트워크는 Feature map을 전체 저장하는 경우에 좋은 성능을 발휘하고 Inference를 위해 많은 메모리를 사용하게 됩니다. 이에 반에, SegNet의 경우에는 Max-pooling Indices만 저장하고 이를 Decoder 네트워크에서 활용하는 특징을 가지고 있습니다.

 

SegNet & FCN에 대한 Decoder 과정

 

위의 그림에서 보시는 것 처럼 Encoder 네트워크 내 Max-pooling을 적용 시 저장하고 있었던 위치 정보를 가지고 Decoder 네트워크 적용하게 됩니다. 

 

SUNRGB-D 데이터 셋에 대한 성능 비교

 

위의 표에서 성능을 측정하기 위한 Metrics은 다음과 같습니다.

 

  • G (Global Accuracy) : 데이터 셋 내 정상 분류된 픽셀들의 비율 계산
  • C (Class Average Accuracy) : 전체 Classes 내 예측 정확도를 측정한 후 평균 계산
  • mIoU (Mean Intersection over Union) : Groundtruth와 Prediction의 합집합과 교집합 영역을 이용하여 계산
  • BF (Boundary F1-measure) : Recall과 Precision을 이용하여 조화 평균 계산

 

지금까지, 

"SegNet : A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation"

위 논문에 대해서 알아보았습니다.

 


Reference 

728x90
LIST
Comments