AK가 업로드하는 Hugging face의 7월 26일 자 신규 논문 중 관심 있는 논문 1건과,
CVPR 2024 논문 중 Occupancy Prediction을 다루는 연구 중, 관심 가는 논문 3건을 훑어보고자 한다.
가볍게 읽으려고 논문을 펼쳐도 궁금한 디테일들이 보이고, 파악하려고 거듭 읽고 코드를 보다 보면 시간이 많이 필요하다.
주 목적은 개인 연구를 하는 거고, 어떤 연구가 진행되고 어떤 논문이 나오는 지 트렌드 파악을 위한 목적이기에, 깊게 보지 않으려고 한다.
1 | 명령어를 주었을 때, 특정 영역을 적절하게 수정하여 생성해주는 생성모델연구.
- 문자열을 주고, 어떤 이미지나 공간을 바꾸라고 명령했을 때, 모델이 이를 수정해주는 작업이다. (inpainting task)
- 이 분야에 명확한 배경 지식은 없으나, 논문을 보았을 때, 아마 text를 가이드로 한다면, 어디에 위치를 시킬 지에 대한 부분이 명확하지 않은 듯 하다. 따라서 해당 연구에서는 애초에 필요한 데이터셋을 확보하여, 어떤 문자열이 주어졌을 때 해당 부분이 주변과 자연스럽게 변하도록 하는 작업을 수행한다.
2 | 3D 공간추론(Occupancy Prediction)을 다른 센서 간 비동기적 수행 연구.
- *3D 공간추론(Occupancy Prediction)을 수행하는 연구다.
- 3D 공간추론은 단일 이미지 혹은 연속적 이미지 묶음이 입력 되었을 때, 적합한 3차원 복셀을 추론하는 연구다.
- 비전 센서를 통해 공간을 파악하는 건 다른 센서에 비해 가격 경쟁력이 있어서 근래 활발히 연구되는 주제다.
- 아무래도 큰 기업에서 자율주행 차량의 센서로 비전 센서를 사용하고, 효율적 저장 방식으로 복셀을 활용하다 보니, 점차 관심도가 높아지는 거 같다. 여담이지만, 2017년에 Shuran song 교수님이 Semantic scene completion[5]이라는 이름의 연구가 제안된 이후 갖던 관심보다 근래에 관심도가 매우 높아지고 있는 듯 하다.
결론 및 첨언
- 구체적인 내용까지 이해하진 못했으나, 기존에서는 매 time step(t)이 특정 센서를 기준하여서 결정되는 경우가 많다. 예를 들어, RGB와 이벤트 카메라를 사용할 때는, RGB의 FPS가 각 t의 기준이 되고, 그 사이에서 발생하는 이벤트 정보를 누적하여 사용한다.
- 하지만 실제 센서가 구동되는 모습을 보면 각 센서의 계측 주기가 각양각색이기 때문에 가변적인 시간 단위에서의 인공지능 모델 활용도 중요한 요소라고 생각되고 그대서, 이러한 부분을 해결하고자 한 연구였다고 생각한다.
3 | 3D 공간추론(Occupancy Prediction)의 효율적 표현방법/데이터 포맷 활용 연구.
- 3D 공간추론(Occupancy Prediction)을 수행하는 연구다.
- 입력 이미지로 부터 공간 추론을 수행하고자 한다면, 보통 얻어진 입력 이미지와 깊이 정보를 3차원에 뿌리고 이를 복셀화하여서 초기 입력 복셀을 생성할 수 있다. 이러한 경우 이미지의 높이x넓이 개수의 픽셀이 3차원 공간에 뿌려지게 되는데, 3차원 복셀 해상도 대비해서 상당 부분이 정보가 없는 경우가 많다. 논문에서도 말하길 67% 가량이 정보가 없는 빈 복셀이라고 한다.
- 빈 공간이 많은 복셀을 3차원 합성곱 신경망에 태우면, 연산도 많이 필요하고 불필요하게 메모리를 가지고 있다는 문제가 있다. 따라서, 이전부터 Sparse Voxel[6] 라고 하여 사전형 포맷에 값이 있는 영역만 저장하고 연산하는 방식으로 한 적이 있다. (대표적으로 NVIDIA Mincowski Engine 라이브러리[7]가 있는 걸로 알고 있다.) 그 외로 BEV나 TPV와 같은 형태의 표현을 통해서 축약하여 정보를 사용해도 정보를 어느정도 잘 유지하는 양상을 보였다고 할 수 있다.
결론 및 첨언
- 구체적으로 파악하진 않았는데, 표현되는 그림이 쓰기 좋은 그림이 많았다.
- 성능도 기존 3D Dense한 방식에 비해 유지되거나, 떨어지는 형태를 보였는데, 컴퓨팅 리소스를 반 이상 줄이는 것으로 보여준다. 따라서, 성능을 줄이기 위해서 그 구조를 한 번 살펴볼 필요는 있다고 생각한다.
[과제/연구적 관점에서 자세히 들여다볼만 함]
4 | 3D 공간추론(Occupancy Prediction)을 다중 차량에서 교환적으로 진행한 연구.
- 해당 논문은 3D 공간추론을 다중 차량에서 상호 간 교환적으로 할 수 있지 않겠냐 하는 연구다.
- 위 연구에서 결국 간편한 표현 방식을 위해서 Sparse한 표현 방식을 선택한 것과 유사하게도, TPV(Tri-plane representation)을 사용하여 각 특징을 임베딩 시키고 이를 다중 차량 간 교환하게 된다.
- 위의 그림과 같다. 상호 간의 feature를 교환하고, 이를 통해 전반적인 공간에 대해서 추론하게 된다.
결론과 첨언
- 새로운 방식이 있다고 생각이 되진 않고, 문제를 잘 설정하고 적합하게 풀어낸 좋은 연구라고 생각한다.
- 각 feature를 어떻게 합치고, 각 차량의 포즈나 공간을 어떻게 추정하는 지가 궁금하긴 하다. (이후에 상세 리뷰로 하면 좋을 듯)
Reference
[1] https://huggingface.co/papers/2407.16982
[2] https://rruisong.github.io/publications/CoHFF/
[6] https://proceedings.neurips.cc/paper/2021/file/46031b3d04dc90994ca317a7c55c4289-Paper.pdf
'논문 읽기 > 다양한 논문 훑어보기' 카테고리의 다른 글
논문 훑어보기 - Hugging Face 최신 논문 (24.07.25) (0) | 2024.07.25 |
---|