محققان MIT روش جدیدی برای آموزش ربات‌های چندمنظوره ابداع کردند

پژوهشگران مؤسسه فناوری ماساچوست (MIT) یک رویکرد نوآورانه برای آموزش ربات‌های چندمنظوره ارائه کرده‌اند که از موفقیت مدل‌های هوش مصنوعی مولد مانند GPT-4 الهام گرفته است. این چارچوب که به نام «ترانسفورمرهای پیش‌آموزش ناهمگون» (HPT) شناخته می‌شود، به ربات‌ها این امکان را می‌دهد که طیف وسیعی از وظایف را بیاموزند و انجام دهند، کاری که تا به حال چالش‌برانگیز بوده است.

این پیشرفت می‌تواند راه را برای تبدیل ربات‌ها از ابزارهای تخصصی به دستیاران انعطاف‌پذیری باز کند که قادر به یادگیری سریع مهارت‌های جدید و واکنش به شرایط متغیر هستند.

به‌طور سنتی، آموزش ربات‌ها یک فرایند زمان‌بر و پرهزینه بوده و نیازمند جمع‌آوری داده‌های خاص برای هر ربات و وظیفه در شرایط کنترل‌شده است. در نتیجه، ربات‌ها با تطبیق به شرایط جدید و موانع غیرمنتظره با مشکل روبه‌رو می‌شوند.

روش جدید MIT این مشکل را حل می‌کند و حجم عظیمی از داده‌های متنوع را از منابع گوناگون در یک سیستم یکپارچه ترکیب می‌کند و به این ترتیب، ربات‌ها توانایی یادگیری مجموعه گسترده‌ای از وظایف را به دست می‌آورند.

در قلب چارچوب HPT یک شبکه عصبی ترانسفورمر قرار دارد که ورودی‌های مختلف مانند داده‌های بصری و حرکتی را پردازش می‌کند و یک “زبان مشترک” ایجاد می‌کند که هوش مصنوعی بتواند آن را درک کرده و از آن بیاموزد.

لیرُی وانگ، نویسنده اصلی این پژوهش و دانشجوی رشته مهندسی برق و علوم رایانه (EECS) در MIT، توضیح داد: «در حوزه رباتیک، اغلب گفته می‌شود که داده آموزشی کافی وجود ندارد. اما از نظر من، مشکل بزرگ دیگری نیز وجود دارد و آن این است که داده‌ها از حوزه‌ها، مدل‌ها و سخت‌افزارهای رباتیک بسیار متنوعی جمع‌آوری شده‌اند. رویکرد ما نشان می‌دهد که چگونه می‌توان یک ربات را با ترکیب تمام این داده‌های مختلف آموزش داد.»

از دیگر نویسندگان این مقاله می‌توان به جیالیانگ ژائو، دانشجوی رشته EECS، شینلی چن از مؤسسه تحقیقاتی Meta و کایمینگ هه، استاد EECS و عضو آزمایشگاه علوم رایانه و هوش مصنوعی (CSAIL) در MIT اشاره کرد. این پژوهش قرار است در کنفرانس سیستم‌های پردازش اطلاعات عصبی ارائه شود.

یکی از نقاط قوت اصلی روش HPT، توانایی آن در بهره‌گیری از مجموعه داده‌های بزرگ برای پیش‌آموزش است. محققان، مجموعه‌ای شامل ۵۲ مجموعه داده با بیش از ۲۰۰ هزار مسیر حرکتی ربات در چهار دسته مختلف، از جمله ویدئوهای نشان‌دهنده رفتار انسانی و شبیه‌سازی‌ها، گردآوری کرده‌اند.

این پیش‌آموزش به سیستم HPT اجازه می‌دهد که هنگام یادگیری وظایف جدید، دانش خود را به‌طور مؤثر انتقال دهد و تنها به مقدار کمی داده خاص برای هر وظیفه جهت تنظیم نهایی نیاز داشته باشد.

در آزمایش‌های شبیه‌سازی‌شده و واقعی، روش HPT عملکرد بهتری نسبت به روش‌های سنتی آموزش از ابتدا نشان داد و بیش از ۲۰ درصد بهبود داشت. این سیستم حتی در مواجهه با وظایفی که به‌طور قابل‌توجهی با داده‌های پیش‌آموزش تفاوت داشتند، عملکرد بهتری از خود نشان داد.

دیوید هلد، استاد مؤسسه رباتیک دانشگاه کارنگی ملون که در این پژوهش دخالتی نداشته، اظهار داشت: «این مطالعه روشی نوین برای آموزش یک سیاست واحد برای چندین شکل ربات مختلف ارائه می‌دهد. این امر امکان آموزش با استفاده از داده‌های متنوع را فراهم می‌کند و مقیاس داده‌های آموزشی برای ربات‌ها را به‌طور قابل‌توجهی افزایش می‌دهد و اجازه می‌دهد مدل‌ها به سرعت با مدل‌های جدید رباتیک سازگار شوند که در شرایط طراحی مداوم مهم است.»

تیم MIT قصد دارد چارچوب HPT را با بررسی نحوه افزایش تنوع داده‌ها برای بهبود عملکرد آن ارتقا دهد. آن‌ها همچنین در نظر دارند قابلیت سیستم را برای پردازش داده‌های بدون برچسب گسترش دهند، مشابه با عملکرد مدل‌های زبانی بزرگ مانند GPT-4.

وانگ و همکارانش چشم‌انداز بلندپروازانه‌ای برای آینده این فناوری دارند. او گفت:«رویای ما این است که یک مغز ربات جهانی ایجاد کنیم که بتوانید آن را دانلود کنید و بدون هیچ آموزشی برای ربات خود استفاده کنید. ما در مراحل اولیه هستیم، اما مصمم به پیشرفت این فناوری هستیم و امیدواریم که مقیاس‌پذیری باعث شکوفایی در سیاست‌های رباتیک شود، همان‌طور که در مدل‌های بزرگ زبانی شاهد بودیم.»

این پژوهش با حمایت مالی «ابتکار فناوری آمازون در بوستون بزرگ» و «مؤسسه تحقیقاتی تویوتا» انجام شده است.