로봇공학 최고 권위의 국제로봇학회 RSS 2025에서 논문 채택
세계 수준의 RFM으로 Pi0와 경쟁할 성능 입증
서울대학교 AI연구원과 휴머노이드 스타트업 투모로 로보틱스(Tommoro Robotics, 서울대 AI연구원장 겸 대표이사 장병탁)가 공동 개발한 로봇 인공지능 모델 ‘CLIP-RT’가 공개됐다. CLIP-RT는 사용자의 자연어 설명만으로도 로봇에게 동작을 학습시킬 수 있는 로봇 파운데이션 모델(RFM, Robot Foundation Model)로, 복잡한 장비 없이 누구나 손쉽게 로봇을 훈련시킬 수 있다는 점이 특징이다.
CLIP-RT는 예를 들어 사용자가 “컵을 선반에 올려줘”라고 말하면, 이를 인식해 로봇이 실제 동작을 수행한다. 기존에는 로봇을 학습시키기 위해 VR 장비나 전문가의 원격 조작(텔레오퍼레이션)이 필요했지만, CLIP-RT는 텍스트나 음성 명령만으로도 효과적인 학습이 가능해 일반 사용자도 쉽게 활용할 수 있다.
CLIP-RT는 스탠포드대학교가 개발한 대표적 RFM인 ‘OpenVLA’를 능가하는 성능을 보여주었다. OpenVLA가 약 70억 개의 파라미터를 가진 대형 모델인 반면, CLIP-RT는 10억 개의 파라미터로 구성되어 있어 모델 크기는 1/7 수준임에도 불구하고 실제 로봇 조작 과제에서 평균 24%포인트 높은 성공률을 기록했다. 특히, 처음 수행하는 새로운 과제에서도 53%의 성공률을 보이며 높은 일반화 성능을 입증했다.
또한, 시뮬레이션 환경에서 다양한 로봇 과제를 평가하는 LIBERO 벤치마크에서도 92.8%의 성공률을 나타냈으며, OpenVLA 보다 약 39배 빠른 속도(163㎐)로 동작해 실시간 제어도 가능함을 입증했다. CLIP-RT는 한두 번의 시연만으로도 새로운 작업을 익힐 수 있는 학습 효율성을 갖추었으며, 일부 과제에서는 단 2~4회의 사용자 피드백만으로도 빠른 성능 향상을 보였다.
이러한 연구성과는 로봇공학 분야 최고 권위의 학회인‘RSS 2025 (Robotics: Science and Systems)’에 논문으로 채택되었으며, Physical Intelligence의 Pi0, 스탠포드대학교의 OpenVLA-OFT 등과 함께 ‘비전-언어-행동(VLA)’ 세션에서 발표될 예정이다.
장병탁 AI연구원장 겸 투모로 로보틱스 대표이사는 "로봇 모델이 언어를 매개로 세상을 이해할 수 있어야 한다는 점에 주목해, 규모는 작으면서도 성능이 강력한 로봇 파운데이션 모델을 국내 최초로 글로벌 수준으로 개발하여 로봇공학 분야 최고 권위의 국제학술대회(RSS)에 발표하고 인정받았다는데 큰 의의가 있다”고 말하며“전 세계적으로 로봇 파운데이션 모델의 발전이 가속화되고 있는 시점에 국내 기술로 세계적 수준의 모델을 개발하게 되어 매우 뜻깊다. 향후 누구나 손쉽게 로봇을 훈련하고 활용할 수 있는 시대를 앞당기기 위해 CLIP-RT의 오픈소스 공개 및 후속 연구를 이어갈 계획”이라고 밝혔다.
CLIP-RT는 산업통상자원부, 과학기술정보통신부, 광주광역시 등의 지원을 받아 개발되었으며, 장병탁 서울대학교 컴퓨터공학부 교수, 이준기 AI연구원 연구교수, 강기천 연구원, 김정현 인공지능 전공 박사과정생 등이 참여했다. 특히, 국내 기술력으로 개발된 세계 수준의 RFM이 Physical Intelligence의 Pi0와 어깨를 나란히 했다는 점에서 학계의 주목을 받고 있다.
서울대학교와 CLIP-RT의 공동 개발에 참여한 투모로 로보틱스는 2022년 서울대학교 BI(Biointelligence) 연구실에서 창업한 휴머노이드 스타트업으로 서울대학교 AI연구원 출신의 석·박사 연구원들로 구성되어 있으며, RFM 아키텍처를 연구하고 휴머노이드 범용 로봇 인공지능을 연구 개발하고 있다.