본문 바로가기

논문 읽기/한 가지 논문 깊게읽기

[ICRA'23] Simple-BEV: What Really Matters for Multi-Sensor BEV Perception? (2024.11.11)

 
 

3D Vision 연구실에 있으면서, 두 개의 이미지 혹은 다른 센서 모달리티에서 추정한 2차원 정보를 가지고 어떤 방식으로 3차원 상에 표현할 지에 관심을 많이 가지고 있다. 보통 두 장의 스테레오 이미지에서 시차(disparity)를 이용해서 깊이(depth) 정보를 추정하고, 이러한 연속적인 영상을 통해서 3차원 공간을 복원(reconstruction)하거나, 추정하곤 한다. 다만, 'Occupancy prediction'이나, 여타 단일 이미지에서 3차원 공간을 추론하는 연구에서는 단일 이미지를 어떻게 3차원으로 매핑 시킬 지는 관건이다. 왜냐하면 보통 카메라에서 찍히는 영상 자체에서 얻을 수 있는 정보량이 한정되기 때문이다.

 

관련해서 다룬 주제:


한 줄 평:

더보기


" Occupancy prediction을 수행할 때, 여러 변인 (센서, 2D 네트워크, Lifting 방식 등)을 통제하여 잘 실험한 논문이다."

 

 

 

1 Method

1.1  Unprojection approach

앞서 언급하였듯, 2D 이미지와 특징이 주어졌을 때, 깊이 정보를 통해 3차원에 1-to-1 매핑 시키거나, 레이 위에 모두 배치하거나, 혹은 특정 웨이트 파라미터 형태의 곱으로 표현하는 정도만 알고 있었는데, 생각보다 다양한 방법이 있었다.  

  • Parameter-free unprojection: 여러 view에서 카메라 포즈를 알고, Multiple-view geometry를 이용해서, 네트워크 없이 바로 3차원 좌표를 추정하거나, 추정된 좌표를 복셀에 인코딩 시키는 방식이다.

 

  • Depth-based unprojection: Depth를 추정하는 기본적인 ray 형태를 유지하면서, 누적하거나, 가중치를 학습하는 등, 깊이 기반 방식을 일컫는 듯 하다.
Depth from [3]

 

  • Homograhpy-based unprojection: 실제로 카메라 포즈를 알고 여러 카메라를 연결하는 방식이 아니라, 카메라 패치를 plane warping 시켜서 활용하는 방식인 듯 하다.
Homography example from [4]

 

  • MLP-based unprojection: 아래 그림에서도 transformer라고 언급은 되어 있지만, MLP 형식이라고 하는 이유는 아무래도, 각각의 view에서의 정보를 유의미하게 활용하는 게 아니고, 네트워크를 거친 뒤 활용하기가 아닐까 싶다. (각 연구의 디테일을 아는 건 아니라서, 정확한 차이는 모르겠다.)
Transformer-like model from [5]
  • Geometry-aware transformer-like models: 아래 연구가 참 재밌었는데, 애초에 카메라의 상하 길이는 실제로 복셀 공간에서의 특정 깊이와 유사하다. 따라서, 각 이미지의 상하 길이와 복셀의 깊이를 서로 어텐션하도록 만든 연구인 듯 하다. 이후에도 볼 가치가 있어 보인다.
Transformer-like model from [6]

 

 

1.2 Proposed lifting approach

코드까지 확인해서 정확한 수준으로 이해하진 못했지만, 아래 그림 중 오른쪽이 제안하는 lifting 방식이다. splatting 보다는 sampling에 가깝다고 저자는 말한다. 아마, Depth를 기준해서 특정 픽셀에 뿌리되, 앞 뒤 복셀에 값들을 interpolation해서 저장하는 방식이 아닐까 싶다. (정확하지 않다.)

 

 

 

2  Experiments

개인적으로 흥미로웠던 실험만 선별적으로 다룬다. 논문에서 다룬 점 중에, 의미가 있는 건 아무래도 apple-to-apple 비교라고 해서, 각 변인을 맞춰놓은 상태로 각각의 방법을 비교한 데 있다. 따라서, 각 실험을 자세히 읽어 두는 건 의미가 있다고 생각한다.

실제로 제안한 방식보다 멀티 스케일 & deformable attention이 성능이 좋다고 하는데, 사실 간단한 방법이 아니고, 복잡한 방식이라 성능이 높은 게 당연한데, 큰 폭이 아니라는 게 다소 놀랍다.
저자들이 예상한데로, 백본 네트워크는 강력할 수록 전체적인 성능이 높다고 한다.
이미지 해상도에 따라서, IoU가 다르다고 하여, 생각보다 놀랍다.
여러 모달리티를 섞을 수록 성능이 높아진다고 하는데, 그건 아무래도 입력 좌표계가 동일한 상황이라 그런듯하다.

 

3 Reference

제안 논문 및 관련 코드