از سردرگمی تا دقت؛ آموزش کارهای خانه به ربات‌ها

ربات‌ها به‌رغم پیشرفت‌های چشمگیر در سال‌های اخیر، همچنان در مواجهه با کارهای چندمرحله‌ای در دنیای واقعی با چالش‌هایی جدی روبه‌رو هستند؛ برای نمونه، اگر به یک ربات دستور داده شود یک اتاق به‌هم‌ریخته را مرتب کند، ممکن است هدف کلی را درک کند، اما در تشخیص محل دقیق هر وسیله یا ترتیب صحیح انجام کارها دچار اشتباه شود و حتی مراحل غیر واقعی را به فرآیند اضافه کند.

کد خبر : ۲۹۴۷۲۶

۲۳ فروردین ۱۴۰۵ - ۲۲:۵۵

بازدید : ۱۲

گروهی از پژوهشگران شرکت مایکروسافت و مراکز دانشگاهی، سامانه استانداردی برای ارزیابی و بهبود عملکرد ربات‌ها در انجام کارهای چندمرحله‌ای از جمله کارهای منزل در محیط‌های واقعی، توسعه دادند.

وبگاه تِک‌اِکسپلور در گزارشی آورده است: ربات‌ها به‌رغم پیشرفت‌های چشمگیر در سال‌های اخیر، همچنان در مواجهه با کارهای چندمرحله‌ای در دنیای واقعی با چالش‌هایی جدی روبه‌رو هستند؛ برای نمونه، اگر به یک ربات دستور داده شود یک اتاق به‌هم‌ریخته را مرتب کند، ممکن است هدف کلی را درک کند، اما در تشخیص محل دقیق هر وسیله یا ترتیب صحیح انجام کارها دچار اشتباه شود و حتی مراحل غیر واقعی را به فرآیند اضافه کند.

پژوهشگران شرکت مایکروسافت به همراه جمعی از محققان دانشگاهی، سامانه‌ای مبتنی‌بر هوش مصنوعی طراحی کرده‌اند که دقت برنامه‌ریزی و اجرای وظایف توسط ربات‌ها را افزایش می‌دهد. جزئیات این دستاورد در مقاله‌ای در پایگاه آرکایو (arXiv) منتشر شده و در دسترس عموم قرار گرفته است.

به گفته کارشناسان، ریشه اصلی مشکلات ربات‌ها در انجام کارهای چندمرحله‌ای، شکاف میان دو بخش اصلی آن‌هاست: از سویی مدل زبان‑دید (Vision-Language Model، نوعی هوش مصنوعی که هم متن و هم تصویر را پردازش می‌کند) که فهرست اقدامات را به زبان طبیعی تهیه می‌کند و از سوی دیگر سامانه حرکتی (بخشی که فرمان‌ها را به حرکت تبدیل می‌کند) که قرار است این اقدامات را به‌اجرا درآورد. مدل یادشده می‌تواند فهرستی از مراحل لازم را تولید کند، اما اغلب در ارائه مختصات دقیق مکانی برای لمس یا جابه‌جایی اشیا ناتوان است.

آموزش ربات‌ها با روش جدید

پژوهشگران برای رفع این مشکل، دو ابزار مکمل طراحی کرده‌اند:

نخست، سامانه‌ای به نام GroundedPlanBench که با بهره‌گیری از ۳۰۸ موقعیت واقعی از مجموعه داده DROID (سرواژه Distributed Robot Interaction Dataset به معنای «مجموعه داده تعامل گسترده ربات‌ها» که شامل بیش از ۷۶ هزار ویدئو و تصویر از حرکات ربات‌ها در محیط‌های واقعی است و توسط پژوهشگران ۱۳ مؤسسه دانشگاهی در آمریکای شمالی، آسیا و اروپا گردآوری شده)، در مجموع یک هزار و ۹ وظیفه را برای آزمایش ربات‌ها فراهم می‌کند. این آزمون شامل دستورالعمل‌های صریح مانند «کاسه قرمز را بردار» و نیز دستورات ضمنی و مبهمی همچون «میز را مرتب کن» است.

ابزار دوم، سامانه‌ای به نام V2GP (سرواژه video-to-spatially grounded planning به معنای برنامه‌ریزی مبتنی‌بر ویدئو برای تشخیص مکان اشیا) است که به هوش مصنوعی امکان می‌دهد با تماشای ویدئوهای انجام کار توسط انسان یا ربات، فرآیند یادگیری را طی کند. این سامانه با شناسایی دقیق لحظات باز و بسته‌شدن دست یا بازوی ربات در حین جابه‌جایی اشیا، ویدئوها را به بخش‌های کوچک‌تر تقسیم و سپس آن‌ها را به بیش از ۴۰ هزار قطعه آموزشی تبدیل می‌کند. در این فرآیند، هوش مصنوعی می‌آموزد که چگونه یک فرمان کلامی را به مکان دقیق اشیا در فضا ارتباط دهد.

نتایج آزمایش‌ها

محققان چندین مدلِ پیشروی هوش مصنوعی را که به‌عنوان مغز ربات عمل می‌کنند، روی یک هزار و ۹ وظیفه تعریف‌شده در سامانه GroundedPlanBench ارزیابی کردند. یافته‌ها نشان داد که این مدل‌ها توانایی تهیه فهرست مناسبی از مراحل کار را دارند، اما در بخش «ربط‌دادن دستورهای کلامی به مکان دقیق اشیا» عملکرد ضعیفی از خود نشان می‌دهند؛ به عبارت دیگر، نمی‌توانند نقطه دقیق قرارگیری اشیا را در تصویر دوربین مشخص کنند تا ربات بتواند اقدام مدنظر را انجام دهد.

پژوهشگران در مقاله خود تأکید کرده‌اند: برنامه‌ریزی بلندمدت همراه با تعیین مکان دقیق اشیا، همچنان یکی از موانع اصلی پیش روی مدل‌های زبان‑دید محسوب می‌شود.

اما پس از آموزش با استفاده از سامانه V2GP، عملکرد این مدل‌ها بهبود چشمگیری یافت. به گزارش این گروه پژوهشی، سامانه V2GP رویکردی امیدوارکننده برای بهبود هم‌زمان برنامه‌ریزی اقدامات و ارتباط میان فرمان‌های کلامی با مکان دقیق اشیا ارائه می‌دهد؛ این نتیجه هم در ارزیابی‌های انجام‌شده بر روی سامانه استاندارد طراحی‌شده و هم در آزمایش‌های عملی با ربات‌ها تأیید شده است.

چشم‌انداز آینده

پژوهشگران تأکید کرده‌اند که برای افزایش توانایی این سامانه استاندارد و سامانه V2GP در مواجهه با وظایفی که انجام آن‌ها بیشتر طول می‌کشد و همچنین وظایف پیچیده‌تر، همچنان نیاز به پژوهش و توسعه بیشتری وجود دارد. با این حال، هدف نهایی آن‌ها ایجاد یک سامانه ارزیابی یکسان به جای روش‌های متعدد و غیرهماهنگ در آزمایشگاه‌های مختلف عنوان شده تا زمینه برای ارتقای عملکرد ربات‌ها در محیط‌های واقعی فراهم شود.

منبع: ایرنا