본문 바로가기

[ICRA'23] Simple-BEV: What Really Matters for Multi-Sensor BEV Perception? (2024.11.11) 3D Vision 연구실에 있으면서, 두 개의 이미지 혹은 다른 센서 모달리티에서 추정한 2차원 정보를 가지고 어떤 방식으로 3차원 상에 표현할 지에 관심을 많이 가지고 있다. 보통 두 장의 스테레오 이미지에서 시차(disparity)를 이용해서 깊이(depth) 정보를 추정하고, 이러한 연속적인 영상을 통해서 3차원 공간을 복원(reconstruction)하거나, 추정하곤 한다. 다만, 'Occupancy prediction'이나, 여타 단일 이미지에서 3차원 공간을 추론하는 연구에서는 단일 이미지를 어떻게 3차원으로 매핑 시킬 지는 관건이다. 왜냐하면 보통 카메라에서 찍히는 영상 자체에서 얻을 수 있는 정보량이 한정되기 때문이다. 관련해서 다룬 주제:[ECCV'24] Hierarchical Tempo..
[CVPR'23] VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion (24.11.10) 연구실에서 개인 연구 및 과제와 관련되어서, 다시 한 번 쭉 읽어보려고 한다. 따라서 블로그에 정리하려고 하고, 개요나 관련된 연구를 설명하는 것보다는, 구체적인 방법만 작성하려고 한다. 관련해서 다룬 주제:[ECCV'24] Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion (24.11.07) 한 줄 평:더보기" 트랜스포터 (어텐션, 마스크드) 등의 최신 기법을 Occupancy prediction에 접목하여 성능 향상을 보이다. "   1 Method 1.1 Predefined Parameters일반적으로는 RGB를 'ResNet'에 입력하고, 이미지랑 차원이 같은 특징 벡터로 변환해준다. 이후 정해져..
[ICRA'24] Follow the Footprints: Self-supervised Traversability Estimation for Off-road Vehicle Navigation based on Geometric and Visual Cues (24.11.09) 연구실에서 정부 및 산학 과제 관련한 주제로, 야외에서의 네비게이션을 다루고 있다. 따라서, 이번 기회에 읽던 논문을 간단하게 정리하고자 한다. 논문이 복잡하지 않고, 간단하다. 실제로 코드가 직선적이고 간결하게 구성되어 있는 점이 마음에 든다. 로봇 플랫폼이 야외에서 움직이고, 목적지를 찾아가는 일은 상당히 어렵다. 기본적으로 서비스 로봇은 특정 목적으로 구동하기 위해서는 SLAM이나 포즈 추정, 맵 생성, 제어 등 다양한 기능이 한 데 어우러져야 하기 떄문이다. 이제 자율주행이 거의 상용화 되었다고 하는 시점이기에, 야지 혹은 험준한 환경에서의 운용 및 네비게이션은 많이 다뤄지지 않았고, 이제 막 활발하게 연구되고 있는 분야라고 할 수 있다. 한 줄 평:더보기" 야지 환경에서 로봇 플랫폼이 주행 가..
[ECCV'24] Sapiens: Foundation for Human Vision Models (24.11.08) 최근에 'DW pose'를 리뷰한 것과 유사하게, 사람 관절을 추론하고 이를 활용하는 프로젝트를 수행하고 있기에, 관련된 연구를 찾아보고 있어서 공부 겸 정리하고자 한다. 파운데이션 모델이라고 불리는 많은 데이터로 큰 모델을 학습해서 배포하는 연구가 다양한 분야에서 연구되고 있다. 해당 연구는 어떤 의미에선 연구 보다는 엔지니어링에 가깝긴 하지만, 해당 연구를 통해 다른 연구 혹은 유사 연구에서 가능한 상한 성능을 볼 수 있는 점에서 의미가 있고, 또한 레이블이 어렵고 생각보다 다양한 영역에 활용될 수 있어서 가치가 있다고 생각한다. 해당 연구도 사람 포즈 추정 뿐 아니라, 의미 분할 및 깊이 추정, 표면의 법선 추정(surface normal)를 동시에 수행하고 있다. 본 블로그에서는 다른 내용 보다는..
[ECCV'24] Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion (24.11.07) 'Occupancy prediction'은 영상이나 센서 입력이 들어오면 주변 환경을 복셀 형태로 예측하는 연구다. 구체적으로는 단일 이미지가 주어지면, 이를 통해 주변 환경의 3차원 공간과 각 클래스를 복셀 단위로 추론하여 출력한다. 개인 연구 주제인 'Occupancy prediction'과 관련해 참고할 만한 논문을 찾고, 서베이 겸 공부하고자 한다. 이번에 살펴보는 논문은 VoxFormer의 실험 중에서, 시간 연속성을 고려한 'Occupancy prediction'을 다룬 갈래 연구를 본격적으로 풀어본 연구로 볼 수 있다 (연속된 이미지를 활용한 연구). 개인적으로 연구 흐름은 이해하고 있어서, 개요와 선행 연구 부분은 생략하려 한다.  한 줄 평:더보기" VoxFormer를 제외하고, 처음으로..
티스토리 사전이벤트 기회가 되면, 작심삼주를 참여 해보려고 합니다.  https://www.tistory.com/event/write-challenge-2024 작심삼주 오블완 챌린지오늘 블로그 완료! 21일 동안 매일 블로그에 글 쓰고 글력을 키워보세요.www.tistory.com
[ICCVW'23] DW pose: Effective Whole-body Pose Estimation with Two-stages Distillation (24.11.05) 연구실에서 Human Pose Estimation 프로젝트를 진행하게 되어, 관련 논문을 읽고 있다. 이번 기회에 공부도 할 겸, 공부하고 있는 내용을 블로그에 선별적으로 정리하고자 한다. Human Pose Estimation은 3차원 비전 분야에서도 오래된 주제이자 매우 중요한 연구 분야다. 그 중 DW pose 논문은 실사용이 가능할 정도의 FPS를 확보하면서도 준수한 추론 성능을 보여준다. 물론 최근에는 사피엔스나 그보다 더 강력한 모델들이 등장했지만, 이들 모델이 어떤 방식으로 성능을 향상시켰는지 살펴볼 만 하다. 본 컨퍼런스는 아니기에, 담겨 있는 contribution이 다소 간단하다. 한 줄 평:더보기" Knowledge distillation 쓸만하다. 모델 간에도 하고, 스스로도 하자...
논문 훑어보기 - Hugging Face 최신 논문 + CVPR 2024 OCC (24.07.30) AK가 업로드하는 Hugging face의 7월 26일 자 신규 논문 중 관심 있는 논문 1건과,CVPR 2024 논문 중 Occupancy Prediction을 다루는 연구 중, 관심 가는 논문 3건을 훑어보고자 한다. 가볍게 읽으려고 논문을 펼쳐도 궁금한 디테일들이 보이고, 파악하려고 거듭 읽고 코드를 보다 보면 시간이 많이 필요하다.주 목적은 개인 연구를 하는 거고, 어떤 연구가 진행되고 어떤 논문이 나오는 지 트렌드 파악을 위한 목적이기에, 깊게 보지 않으려고 한다.   1 | 명령어를 주었을 때, 특정 영역을 적절하게 수정하여 생성해주는 생성모델연구.문자열을 주고, 어떤 이미지나 공간을 바꾸라고 명령했을 때, 모델이 이를 수정해주는 작업이다. (inpainting task)이 분야에 명확한 배경..