본문 바로가기

논문 읽기/한 가지 논문 깊게읽기

[ICRA'24] Follow the Footprints: Self-supervised Traversability Estimation for Off-road Vehicle Navigation based on Geometric and Visual Cues (24.11.09)

 

[1]

 

연구실에서 정부 및 산학 과제 관련한 주제로, 야외에서의 네비게이션을 다루고 있다. 따라서, 이번 기회에 읽던 논문을 간단하게 정리하고자 한다. 논문이 복잡하지 않고, 간단하다. 실제로 코드가 직선적이고 간결하게 구성되어 있는 점이 마음에 든다. 로봇 플랫폼이 야외에서 움직이고, 목적지를 찾아가는 일은 상당히 어렵다. 기본적으로 서비스 로봇은 특정 목적으로 구동하기 위해서는 SLAM이나 포즈 추정, 맵 생성, 제어 등 다양한 기능이 한 데 어우러져야 하기 떄문이다. 이제 자율주행이 거의 상용화 되었다고 하는 시점이기에, 야지 혹은 험준한 환경에서의 운용 및 네비게이션은 많이 다뤄지지 않았고, 이제 막 활발하게 연구되고 있는 분야라고 할 수 있다.

 


한 줄 평:

더보기


" 야지 환경에서 로봇 플랫폼이 주행 가능한 맵을, Random walk로 추론 가능하게 했다. (RGB-D 사용)"

 

 

 

1 Method

1.1 Preliminaries

본 논문에서는 'off-road traversability'를 다룬다. 이는 로봇 플랫폼이 움직일 수 있을만한 픽셀을 이미지에서 분류하는 문제다. 이미지가 입력되면, 이미지 중 각 픽셀에 움직일 수 있다 혹은 없다에 대해 1, 0으로 표기할 수 있도록 목적한다. (logit 형태일 수도 있으나, 구체적인 출력값은 확인하지 못했다.) 이러한 작업은 실제로 야지에서 플랫폼이 구동하는 환경에서 로봇 플랫폼의 네비게이션을 위해서 먼저 해결되어야 할 문제일 수 있다. 본 분야에서는 제어나 구동 보다는 센서에 입력되는 이미지에서 결과를 추론하는 데 집중한다.

 

1.2 Overall architecture

제안 네트워크의 전반적 형태는 아래와 같다. RGB-D 이미지가 입력되면, 일반적인 'ResNet' 구조를 통과하게 된다. 먼저 출력 결과는 Surface normal로 이미지 별 3 채널의 결과를 출력하게 된다. 이후 앞선 'ResNet' 구조의 'Deconvolution' 레이어와 신규 Deconvolution 레이어를 겹겹이 쌓는 방식으로, 최종적인 *Traversability map을 추론하게 된다. 

 

Overall architecture from [1]

 

*Traversabtility map: 로봇 플랫폼이 이동 가능한 지 유무를 per-pixel하게 기록한 이미지.

 

 

1.3 Guide Filter Network (GFN)

 개인적으로 처음 본 구조라서 신기하다. 간단하게 설명하면 위에 본 그림에서 'Fusion network'에 해당하는 영역이다. Deconvolution 네트워크 파라미터와 출력된 특징을 모두 겹겹이 반복하여 입력하는 모듈이다. 이 과정에서 논문에서 활용하고자 한 (a) 기하학적 정보, (b) 의미론적 정보, 그리고 (c) 로봇 플랫폼 정보 중에서, 앞 두 개를 사용할 수 있다고 한다. 구조가 매우 합당하다.

 

 

 

1.4 Footprint Supervision Module (FSM)

논문에서 활용하고자 한 (a) 기하학적 정보, (b) 의미론적 정보, 그리고 (c) 로봇 플랫폼 정보 중에서, 세 번째에 해당한다. 어떻게 각 로봇 플랫폼 마다 다른 도메인에 적용 가능하도록 네트워크를 제안하였는 지 살펴보고자 한다. 개인적으로는 식견이 부족해서, 잘 이해 안되는 부분은 그대로 남겨 두고 논문 상 이해한 부분까지 작성하고자 한다. 

 

Self-supervised Loss: 수치는 아래와 같은데, 좌우 뒤집기(horizontal flip), 움직이기(shift)를 수행하고, 수행 뒤에 feature를 추출하는 경우와, feature를 추출한 뒤, 움직이는 경우가 동일하게 한다. 그림 중 'RW'에 해당한다. 이는 아마 센서 고도에 따라 조금 다른 위치에 특징이 보이는 경우도 잘 추론하기 위함이 아닐까 싶다. 

 

Random walk: 아마, 정확히 운용 가능한 영역을 알 수 없어, feature의 형태로 가이드를 주고자 한 거 같다. 어떤 픽셀로 움직일 지는 각 피쳐의 유사도에 따라서 결정할 수 있다. 그래서 유사한 쪽으로 움직이는 방식을 통해서, Footprint map을 획득한 방식이 아닐까 싶다. 추론된 feature 와의 

 

 Cross-Entropy Loss:  이미 추정된 footprint 맵과 추정된 Traversability map 간의 유사도를 측정하는 손실함수다. 위 이미지를 보면 실제 포즈가 추정된 영역은 매우 작아서, 값이 있으면 1 값이 없는 영역은 0.1 의 가중으로 학습한다고 한다.

 

 

2  Experiments

개인적으로 흥미로웠던 실험만 선별적으로 다룬다. 개인적으로는 각 모듈에 대한 Ablation study나 다양한 실험이 있었다면, 조금 재밌게 봤을텐데, 이쪽 연구를 잘 몰라서 모르겠지만, 실험이 많지 않아서 아쉬웠다.

이전 Traversability map 추정 연구에 비해서 비교적 상당히 준수한 성능을 보여준다. Self supervision 만으로 이렇게 가능한 게 신기하다.

 

3 Reference

제안 논문 및 관련 코드