Hugging face에서 근 며칠 간의 논문 중 눈에 들어오는 논문을 간단하게 읽고 정리하고자 합니다.
논문을 구체적으로 파악하지 않고, 자의적으로 해석하기에, 잘못된 해석의 여지가 있습니다.
1 | NVIDIA LLM 모델 Nemotron의 Fine-tunning 방법론 연구.
- Scale과 크기가 다른 다양한 LLM 모델을 학습하고 사용하기 위해서, 각각을 모델을 Scratch로 학습하는 건 비효율적이다.
- 제안 방법은 기 학습된 모델을 기존 학습 데이터의 3% 미만의 조각으로 학습하는 걸 대체 방법으로 제안한다.
- 이를 위해, 가지치기 기반의 재학습을 통해, depth, width, attention, MLP를 조합하는 방식을 제안한다고 한다.
- ( 정확히 어떠한 의미를 갖는 지는 잘 모르겠다. )
- 위 그림처럼, 여러 Hyperparameter를 조합해서 Architecture를 구성하는 듯 한데, 어디서 Prunning이 들어갔는 지는 모르겠다.
- 위 그림처럼, 큰 모델을 작은 모델로 전달 시, 특정 목적을 하는 Layer마다 출력 혹은 입력 값 간의 유사도를 통해 전이시키는 듯 하다.
- 가지치기 방식에 대한, 구체적인 레시피 같은데, 상당히 구체적인 수준이고 동일 작업이 반복됨을 보면, 실용적 목적 연구같다.
결론 및 첨언
- NVIDIA 측에서 공개한 대규모 언어 모델(LLM)인 Nemotron 모델을 목적에 따라서, 분사하기 위한 실용 연구의 결과로 보인다.
- 지식 전이 (knowledge transfer/knowledge distilation) 관점에서 관심은 가지만, 근본적으로 배울 수 있는 논문은 아닌 듯 하다.
2 | 개인화 된 이미지 생성모델을 만들기 위한 시도.
- 같은 프롬프트(prompt)에서도 다양한 결과를 유저마다 다르게 생성하고 자 하는 모델 연구.
- 기존 연구는 이미지 묶음(image set)을 좋아요/싫어요로 평가하거나, 순서를 메기고, 관련된 이미지를 제공하는 등의 방식으로 개인화된 이미지 생성 연구를 제안한다. 하지만, 이러한 방식은 매우 드물기에(sparse) 결국은 원하는 결과를 얻기 힘들다. 풀어서 말하자면, 그림을 그려준다는 건 색이나 형태, 스타일, 채도 등 다양한 요소를 고려해야 하는 고도의 작업이기에, 몇 가지 제한적인 정보만으로는 원하는 형태로 이미지를 생성하는 데는 한계가 있을 거란 의미라고 생각한다.
- 해당 논문은 이러한 방식을 해결하기 위해 결국 LLM을 쓰는데, 이미지 묶음을 제공한 뒤, 각 이미지 묶음 중 기호를 표하고 왜 싫고 좋은 지 표현하도록 한다. 아마 이를 LLM을 통해 어떠한 사전 정보로 바꾸고 LLM에서 프롬프트로 제공하지 않을까 싶다.
결론 및 첨언
- 개인의 시각적 기호에 따른 이미지를 생성하도록 한다는데, 결국 일반적으로 잘 사용되는 모델을 만든 다음은 각각 구체적 사례에 적용하는 수순이라고 생각한다. LLM을 경량화하고 목적화하는 것과 동일하다고 생각하고, 앞으로 연구의 실용화 관점에서 이러한 유형 연구를 계속 바라볼 필요는 있다고 생각한다.
- 해당 방법론은 기술적으로 많은 컨트리뷰션이 있는 것 같진 않지만, 결과가 괜찮다는 점에서 얼추 의미가 있는 연구지 않을까 싶다.
3 | 동일한 파라미터를 갖는 KAN과 MLP 간의 다중 작업에서의 비교 연구.
결론 및 첨언
- KAN 이라는 네트워크 모델을 들어만 봤지 구체적으로 모른다. MLP의 대체로 가능하다고 얘기는 하는데, 커뮤니티에서는 흥미롭지만 크게 대수롭게 여기진 않는 듯 하다[5]. 따라서, 깊게 보지는 않았지만, 역시나 연구라는 게 관점에 따라 해석할 수 있는 요소가 많고, 실험의 조건이나 환경을 어떻게 설계하느냐에 따라 제안 연구의 효과나 목적을 보일 수 있는 방법은 다양한 듯 하다. 하지만 논문에서 KAN 모델이 MLP보다 우월한 영역이 있음을 보였듯, 활용이나 착안하여 적용하냐에 따라 기대해볼 만한 방법론이지 않을까 싶다.
4 | 열화상 카메라를 활용해 제안된 조건(low light*, fog, and rain)에서도 NeRF 수행 연구.
- 디테일은 파악하지 못했지만, 열화상 카메라의 장점을 활용해서, 제한된 조건에서도 장면을 복원(reconstruction)하는 연구다.
- 빛이 없거나, fog 혹은 가려진 상황에서도 충분히 해당 센서 시스템 혹은 알고리즘을 통해 장면을 복원할 수 있도록 한다.
- 논문의 Contribution 쪽에도 열화상에서 잘 작동하도록 어떠한 것을 제안했다고 나오진 않는다. 다만, 해당 센서 시스템 캘리브레이션 방법 및 데이터셋 취득과 필요한 비교 실험을 모두 실행한 부분이 연구로써 충분한 가치가 있지 않나 싶다.
결론 및 첨언
- 나는 동적 비전 센서(event camera)를 활용하는 연구에 관심이 있다. 따라서, 유사하게 센서를 융합한 연구가 어떠한 의미를 갖고 어떻게 논문으로 작성될 수 있는 지 확인했다. 결국은 장점을 명확히 보여줄 수 있는 실험 환경과 그에 따른 필요한 비교 실험이 뒷받침되면, 의미를 갖는 듯 하다. 해당 연구에서는 센서 시스템을 실제로 구축하고 캘리브레이션도 하면서 실제 형태를 구축했고, 열이 있는데 가려지거나 안개가 있고, 빛이 없는 환경에서의 실험을 잘 설계 했고 Nerfacto와의 비교를 잘 수행했기에, 온전한(complete) 연구로서의 가치가 있다고 생각한다.
Reference
[1] https://huggingface.co/papers/2407.14679
[2] https://huggingface.co/papers/2407.17365
[3] https://huggingface.co/papers/2407.16674
[4] https://huggingface.co/papers/2407.15337
[5] https://www.reddit.com/r/deeplearning/comments/1ciqnwy/whats_your_opinions_about_kan/?rdt=49168
'논문 읽기 > 다양한 논문 훑어보기' 카테고리의 다른 글
논문 훑어보기 - Hugging Face 최신 논문 + CVPR 2024 OCC (24.07.30) (0) | 2024.07.30 |
---|