얼마 전 스탠퍼드와 구글의 Mobile ALOHA가 서비스 로봇 시장에서 새로운 혁신을 보여주었는데, 이후로도 흥미로운 발표들이 계속되고 있습니다. 이 이동식 로봇은 문, 서랍, 냉장고를 열 수 있으며, 훈련 시간에는 볼 수 없었던 장면까지 일반화할 수 있습니다. 기술은 ALOHA보다 덜 인상적이지만 실제로는 완전히 자율적입니다. 핵심 아이디어는 간단합니다.
학습된 보상 기능으로 OpenAI에서 개발한 컴퓨터 비전 모델인 "CLIP(Contrastive Language–Image Pre-training)"을 사용하여 강화학습(Reinforcement Learning)을 수행합니다. ChatGPT가 사전 훈련 → 강화학습을 통한 인간 피드백(Reinforcement Learning from Human Feedback)을 수행하는 것처럼, 로봇은 원격 제어를 통해 사람이 수집한 궤적에 대한 사전 훈련을 수행한 다음 새로운 시나리오를 통해 스스로 RLHF를 수행할 수 있습니다.
https://x.com/HaoyuXiong1/status/1750884921306947961?s=20
기존 데이터로는 50% 정도 성공률이 나오는데, 추가적인 데이터 인풋 없이 그대로 강화학습을 거쳤더니 성공률이 95%까지 올라갔다고 하네요. 사람이 원격제어를 통해 문을 열게 한 데이터를 샘플로 주고 실제 상황에서 이를 반복시켰더니, 문을 여닫는 과정에서 AI 모델이 알아서 최적화를 진행했다는 뜻입니다.
'일반상식 > 기술' 카테고리의 다른 글
생성형 AI의 미래, 로봇 (feat. 피규어AI) (0) | 2024.02.17 |
---|---|
빌게이츠와 샘알트먼의 대화 (feat. Unconfuse Me) (2) | 2024.02.14 |
연결의 힘은 강하다 (feat. 네트워크의 발전과 관계의 형성) (1) | 2024.02.11 |
와이 콤비네이터(Y-Combinator)에서 자주 나오는 질문 70개 (0) | 2024.02.11 |
갤럭시 S24 언팩 행사 후기 (feat. 구글과의 파트너십을 통한 AI 기능 탑재) (1) | 2024.02.02 |
댓글