(عکس) خداحافظی با فتوشاپ؛ گوگل ویرایش تصاویر را فقط با یک درخواست فراهم می‌کند!

هوش مصنوعی در حال تغییر چهره‌ی ویرایش تصاویر است. حالا دیگر نیازی نیست ساعت‌ها با ابزارهای پیچیده‌ی فتوشاپ کار کنید.

کد خبر : ۲۳۳۵۳۵

۲۹ اسفند ۱۴۰۳ - ۱۰:۵۵

بازدید : ۲۹

گوگل با جمینای ۲.۰ فلش (Gemini 2.0 Flash)، قابلیت جدیدی معرفی کرده که به کاربران اجازه می‌دهد فقط با نوشتن یک درخواست، تصاویر را به دلخواه خود ویرایش کنند.

این مدل، یک گام فراتر از مدل‌های متنی معمولی است و خروجی چندرسانه‌ای (Multimodal Output) ارائه می‌دهد، یعنی می‌تواند همزمان متن، تصویر و حتی محتوای تعاملی تولید کند. برای مثال، می‌توان با کمک آن، بازی‌های گرافیکی یا داستان‌هایی با تصاویر هماهنگ ایجاد کرد، به‌طوری که کاراکترها و محیط در چندین تصویر ثابت بمانند.

یکی از ویژگی‌های شگفت‌انگیز این مدل، امکان مشاهده‌ی تصاویر از زوایای دیگر است. در یک آزمایش، این مدل تصویری را که به آن داده شده بود، از زاویه‌ای متفاوت بازسازی کرد! چنین قابلیتی نه‌تنها برای ویرایش تصویر، بلکه برای طراحی سه‌بعدی، فیلم‌سازی و حتی واقعیت مجازی کاربرد دارد.

تبدیل متن به تصویر: قدمی رو به جلو، اما هنوز نه عالی

یکی از چالش‌های قدیمی مدل‌های هوش مصنوعی، درج متن درون تصاویر (In-image Text Rendering) است. گوگل ادعا می‌کند که مدل جدیدش عملکرد بهتری نسبت به رقبای دیگر دارد. اما طبق بررسی‌های اولیه، نتیجه‌ها هنوز به کیفیت ایده‌آل نرسیده‌اند.

این دستاورد، نوید آینده‌ای را می‌دهد که در آن، هوش مصنوعی قادر خواهد بود هر نوع محتوایی را در لحظه تولید کند؛ از متن و تصویر گرفته تا صدا، ویدیو، گرافیک سه‌بعدی و حتی اشیای فیزیکی قابل‌چاپ با پرینتر سه‌بعدی (3D Printing). به زبان ساده، چیزی شبیه «هولودک» (Holodeck) در مجموعه‌ی علمی‌تخیلی پیشتازان فضا (Star Trek)، البته بدون توانایی تکثیر ماده.

چالش‌ها و محدودیت‌ها: هنوز در ابتدای راهیم

گوگل تأکید می‌کند که این مدل هنوز در مرحله‌ی اولیه است. برخلاف مدل‌های حجیم‌تر، این نسخه‌ی کوچک‌تر برای اجرای سریع‌تر و ارزان‌تر طراحی شده است. به همین دلیل، تمام اینترنت را در خود جای نداده و اطلاعات تصویری‌اش هنوز محدود است. داده‌های آموزشی این مدل ترکیبی از اطلاعات عمومی و داده‌های مصنوعی هدفمند (Targeted Synthetic Data) است که برای بهبود کیفیت تولیدات آن استفاده شده‌اند.

البته با پیشرفت روش‌های آموزش مدل‌های هوش مصنوعی و کاهش هزینه‌های پردازشی، انتظار می‌رود که این فناوری خیلی سریع رشد کند. همان‌طور که مدل‌های تصویری مثل استیبل دیفیوژن (Stable Diffusion) و میدجِرنی (Midjourney) در مدت کوتاهی جهش بزرگی داشتند، مدل‌های چندرسانه‌ای مانند جمینای ۲.۰ فلش هم می‌توانند در آینده‌ای نزدیک، کیفیتی حیرت‌انگیز پیدا کنند.

جهانی که در آن، واقعیت و تخیل یکی می‌شوند

تحقیقات در این حوزه نشان می‌دهند که ما در آستانه‌ی تحولی بزرگ در رسانه‌های دیجیتال هستیم. زمانی نه‌چندان دور، هر فرد می‌تواند با چند کلمه، جهان‌هایی جدید خلق کند، تصاویری از هیچ بسازد، داستان‌هایی با تصاویر هماهنگ تولید کند و دنیای دیجیتال را با تخیلش شکل دهد.

حالا سوال اینجاست که آیا این آغاز پایان روش‌های سنتی طراحی و ویرایش تصویر است؟ آیا به‌زودی نیاز به فتوشاپ و ابزارهای مشابه از بین می‌رود؟ شاید نه به این زودی، اما یک چیز قطعی است: آینده‌ی گرافیک دیجیتال، دیگر هرگز مانند گذشته نخواهد بود.

منبع: خبرآنلاین

بیشتر بخوانید

برچسب ها:

هوش مصنوعی

لینک کوتاه : https://faradeed.ir/fa/tiny/news-233535