پژوهشگران مؤسسه فناوری ماساچوست (MIT) یک رویکرد نوآورانه برای آموزش رباتهای چندمنظوره ارائه کردهاند که از موفقیت مدلهای هوش مصنوعی مولد مانند GPT-4 الهام گرفته است. این چارچوب که به نام «ترانسفورمرهای پیشآموزش ناهمگون» (HPT) شناخته میشود، به رباتها این امکان را میدهد که طیف وسیعی از وظایف را بیاموزند و انجام دهند، کاری که تا به حال چالشبرانگیز بوده است.
این پیشرفت میتواند راه را برای تبدیل رباتها از ابزارهای تخصصی به دستیاران انعطافپذیری باز کند که قادر به یادگیری سریع مهارتهای جدید و واکنش به شرایط متغیر هستند.
بهطور سنتی، آموزش رباتها یک فرایند زمانبر و پرهزینه بوده و نیازمند جمعآوری دادههای خاص برای هر ربات و وظیفه در شرایط کنترلشده است. در نتیجه، رباتها با تطبیق به شرایط جدید و موانع غیرمنتظره با مشکل روبهرو میشوند.
روش جدید MIT این مشکل را حل میکند و حجم عظیمی از دادههای متنوع را از منابع گوناگون در یک سیستم یکپارچه ترکیب میکند و به این ترتیب، رباتها توانایی یادگیری مجموعه گستردهای از وظایف را به دست میآورند.
در قلب چارچوب HPT یک شبکه عصبی ترانسفورمر قرار دارد که ورودیهای مختلف مانند دادههای بصری و حرکتی را پردازش میکند و یک “زبان مشترک” ایجاد میکند که هوش مصنوعی بتواند آن را درک کرده و از آن بیاموزد.
لیرُی وانگ، نویسنده اصلی این پژوهش و دانشجوی رشته مهندسی برق و علوم رایانه (EECS) در MIT، توضیح داد: «در حوزه رباتیک، اغلب گفته میشود که داده آموزشی کافی وجود ندارد. اما از نظر من، مشکل بزرگ دیگری نیز وجود دارد و آن این است که دادهها از حوزهها، مدلها و سختافزارهای رباتیک بسیار متنوعی جمعآوری شدهاند. رویکرد ما نشان میدهد که چگونه میتوان یک ربات را با ترکیب تمام این دادههای مختلف آموزش داد.»
از دیگر نویسندگان این مقاله میتوان به جیالیانگ ژائو، دانشجوی رشته EECS، شینلی چن از مؤسسه تحقیقاتی Meta و کایمینگ هه، استاد EECS و عضو آزمایشگاه علوم رایانه و هوش مصنوعی (CSAIL) در MIT اشاره کرد. این پژوهش قرار است در کنفرانس سیستمهای پردازش اطلاعات عصبی ارائه شود.
یکی از نقاط قوت اصلی روش HPT، توانایی آن در بهرهگیری از مجموعه دادههای بزرگ برای پیشآموزش است. محققان، مجموعهای شامل ۵۲ مجموعه داده با بیش از ۲۰۰ هزار مسیر حرکتی ربات در چهار دسته مختلف، از جمله ویدئوهای نشاندهنده رفتار انسانی و شبیهسازیها، گردآوری کردهاند.
این پیشآموزش به سیستم HPT اجازه میدهد که هنگام یادگیری وظایف جدید، دانش خود را بهطور مؤثر انتقال دهد و تنها به مقدار کمی داده خاص برای هر وظیفه جهت تنظیم نهایی نیاز داشته باشد.
در آزمایشهای شبیهسازیشده و واقعی، روش HPT عملکرد بهتری نسبت به روشهای سنتی آموزش از ابتدا نشان داد و بیش از ۲۰ درصد بهبود داشت. این سیستم حتی در مواجهه با وظایفی که بهطور قابلتوجهی با دادههای پیشآموزش تفاوت داشتند، عملکرد بهتری از خود نشان داد.
دیوید هلد، استاد مؤسسه رباتیک دانشگاه کارنگی ملون که در این پژوهش دخالتی نداشته، اظهار داشت: «این مطالعه روشی نوین برای آموزش یک سیاست واحد برای چندین شکل ربات مختلف ارائه میدهد. این امر امکان آموزش با استفاده از دادههای متنوع را فراهم میکند و مقیاس دادههای آموزشی برای رباتها را بهطور قابلتوجهی افزایش میدهد و اجازه میدهد مدلها به سرعت با مدلهای جدید رباتیک سازگار شوند که در شرایط طراحی مداوم مهم است.»
تیم MIT قصد دارد چارچوب HPT را با بررسی نحوه افزایش تنوع دادهها برای بهبود عملکرد آن ارتقا دهد. آنها همچنین در نظر دارند قابلیت سیستم را برای پردازش دادههای بدون برچسب گسترش دهند، مشابه با عملکرد مدلهای زبانی بزرگ مانند GPT-4.
وانگ و همکارانش چشمانداز بلندپروازانهای برای آینده این فناوری دارند. او گفت:«رویای ما این است که یک مغز ربات جهانی ایجاد کنیم که بتوانید آن را دانلود کنید و بدون هیچ آموزشی برای ربات خود استفاده کنید. ما در مراحل اولیه هستیم، اما مصمم به پیشرفت این فناوری هستیم و امیدواریم که مقیاسپذیری باعث شکوفایی در سیاستهای رباتیک شود، همانطور که در مدلهای بزرگ زبانی شاهد بودیم.»
این پژوهش با حمایت مالی «ابتکار فناوری آمازون در بوستون بزرگ» و «مؤسسه تحقیقاتی تویوتا» انجام شده است.