از سردرگمی تا دقت؛ آموزش کارهای خانه به رباتها
رباتها بهرغم پیشرفتهای چشمگیر در سالهای اخیر، همچنان در مواجهه با کارهای چندمرحلهای در دنیای واقعی با چالشهایی جدی روبهرو هستند؛ برای نمونه، اگر به یک ربات دستور داده شود یک اتاق بههمریخته را مرتب کند، ممکن است هدف کلی را درک کند، اما در تشخیص محل دقیق هر وسیله یا ترتیب صحیح انجام کارها دچار اشتباه شود و حتی مراحل غیر واقعی را به فرآیند اضافه کند.
گروهی از پژوهشگران شرکت مایکروسافت و مراکز دانشگاهی، سامانه استانداردی برای ارزیابی و بهبود عملکرد رباتها در انجام کارهای چندمرحلهای از جمله کارهای منزل در محیطهای واقعی، توسعه دادند.
وبگاه تِکاِکسپلور در گزارشی آورده است: رباتها بهرغم پیشرفتهای چشمگیر در سالهای اخیر، همچنان در مواجهه با کارهای چندمرحلهای در دنیای واقعی با چالشهایی جدی روبهرو هستند؛ برای نمونه، اگر به یک ربات دستور داده شود یک اتاق بههمریخته را مرتب کند، ممکن است هدف کلی را درک کند، اما در تشخیص محل دقیق هر وسیله یا ترتیب صحیح انجام کارها دچار اشتباه شود و حتی مراحل غیر واقعی را به فرآیند اضافه کند.
پژوهشگران شرکت مایکروسافت به همراه جمعی از محققان دانشگاهی، سامانهای مبتنیبر هوش مصنوعی طراحی کردهاند که دقت برنامهریزی و اجرای وظایف توسط رباتها را افزایش میدهد. جزئیات این دستاورد در مقالهای در پایگاه آرکایو (arXiv) منتشر شده و در دسترس عموم قرار گرفته است.
به گفته کارشناسان، ریشه اصلی مشکلات رباتها در انجام کارهای چندمرحلهای، شکاف میان دو بخش اصلی آنهاست: از سویی مدل زبان‑دید (Vision-Language Model، نوعی هوش مصنوعی که هم متن و هم تصویر را پردازش میکند) که فهرست اقدامات را به زبان طبیعی تهیه میکند و از سوی دیگر سامانه حرکتی (بخشی که فرمانها را به حرکت تبدیل میکند) که قرار است این اقدامات را بهاجرا درآورد. مدل یادشده میتواند فهرستی از مراحل لازم را تولید کند، اما اغلب در ارائه مختصات دقیق مکانی برای لمس یا جابهجایی اشیا ناتوان است.
آموزش رباتها با روش جدید
پژوهشگران برای رفع این مشکل، دو ابزار مکمل طراحی کردهاند:
نخست، سامانهای به نام GroundedPlanBench که با بهرهگیری از ۳۰۸ موقعیت واقعی از مجموعه داده DROID (سرواژه Distributed Robot Interaction Dataset به معنای «مجموعه داده تعامل گسترده رباتها» که شامل بیش از ۷۶ هزار ویدئو و تصویر از حرکات رباتها در محیطهای واقعی است و توسط پژوهشگران ۱۳ مؤسسه دانشگاهی در آمریکای شمالی، آسیا و اروپا گردآوری شده)، در مجموع یک هزار و ۹ وظیفه را برای آزمایش رباتها فراهم میکند. این آزمون شامل دستورالعملهای صریح مانند «کاسه قرمز را بردار» و نیز دستورات ضمنی و مبهمی همچون «میز را مرتب کن» است.

ابزار دوم، سامانهای به نام V2GP (سرواژه video-to-spatially grounded planning به معنای برنامهریزی مبتنیبر ویدئو برای تشخیص مکان اشیا) است که به هوش مصنوعی امکان میدهد با تماشای ویدئوهای انجام کار توسط انسان یا ربات، فرآیند یادگیری را طی کند. این سامانه با شناسایی دقیق لحظات باز و بستهشدن دست یا بازوی ربات در حین جابهجایی اشیا، ویدئوها را به بخشهای کوچکتر تقسیم و سپس آنها را به بیش از ۴۰ هزار قطعه آموزشی تبدیل میکند. در این فرآیند، هوش مصنوعی میآموزد که چگونه یک فرمان کلامی را به مکان دقیق اشیا در فضا ارتباط دهد.
نتایج آزمایشها
محققان چندین مدلِ پیشروی هوش مصنوعی را که بهعنوان مغز ربات عمل میکنند، روی یک هزار و ۹ وظیفه تعریفشده در سامانه GroundedPlanBench ارزیابی کردند. یافتهها نشان داد که این مدلها توانایی تهیه فهرست مناسبی از مراحل کار را دارند، اما در بخش «ربطدادن دستورهای کلامی به مکان دقیق اشیا» عملکرد ضعیفی از خود نشان میدهند؛ به عبارت دیگر، نمیتوانند نقطه دقیق قرارگیری اشیا را در تصویر دوربین مشخص کنند تا ربات بتواند اقدام مدنظر را انجام دهد.
پژوهشگران در مقاله خود تأکید کردهاند: برنامهریزی بلندمدت همراه با تعیین مکان دقیق اشیا، همچنان یکی از موانع اصلی پیش روی مدلهای زبان‑دید محسوب میشود.
اما پس از آموزش با استفاده از سامانه V2GP، عملکرد این مدلها بهبود چشمگیری یافت. به گزارش این گروه پژوهشی، سامانه V2GP رویکردی امیدوارکننده برای بهبود همزمان برنامهریزی اقدامات و ارتباط میان فرمانهای کلامی با مکان دقیق اشیا ارائه میدهد؛ این نتیجه هم در ارزیابیهای انجامشده بر روی سامانه استاندارد طراحیشده و هم در آزمایشهای عملی با رباتها تأیید شده است.
چشمانداز آینده
پژوهشگران تأکید کردهاند که برای افزایش توانایی این سامانه استاندارد و سامانه V2GP در مواجهه با وظایفی که انجام آنها بیشتر طول میکشد و همچنین وظایف پیچیدهتر، همچنان نیاز به پژوهش و توسعه بیشتری وجود دارد. با این حال، هدف نهایی آنها ایجاد یک سامانه ارزیابی یکسان به جای روشهای متعدد و غیرهماهنگ در آزمایشگاههای مختلف عنوان شده تا زمینه برای ارتقای عملکرد رباتها در محیطهای واقعی فراهم شود.
منبع: ایرنا