(عکس) خداحافظی با فتوشاپ؛ گوگل ویرایش تصاویر را فقط با یک درخواست فراهم میکند!

هوش مصنوعی در حال تغییر چهرهی ویرایش تصاویر است. حالا دیگر نیازی نیست ساعتها با ابزارهای پیچیدهی فتوشاپ کار کنید.
گوگل با جمینای ۲.۰ فلش (Gemini 2.0 Flash)، قابلیت جدیدی معرفی کرده که به کاربران اجازه میدهد فقط با نوشتن یک درخواست، تصاویر را به دلخواه خود ویرایش کنند.
این مدل، یک گام فراتر از مدلهای متنی معمولی است و خروجی چندرسانهای (Multimodal Output) ارائه میدهد، یعنی میتواند همزمان متن، تصویر و حتی محتوای تعاملی تولید کند. برای مثال، میتوان با کمک آن، بازیهای گرافیکی یا داستانهایی با تصاویر هماهنگ ایجاد کرد، بهطوری که کاراکترها و محیط در چندین تصویر ثابت بمانند.
یکی از ویژگیهای شگفتانگیز این مدل، امکان مشاهدهی تصاویر از زوایای دیگر است. در یک آزمایش، این مدل تصویری را که به آن داده شده بود، از زاویهای متفاوت بازسازی کرد! چنین قابلیتی نهتنها برای ویرایش تصویر، بلکه برای طراحی سهبعدی، فیلمسازی و حتی واقعیت مجازی کاربرد دارد.
تبدیل متن به تصویر: قدمی رو به جلو، اما هنوز نه عالی
یکی از چالشهای قدیمی مدلهای هوش مصنوعی، درج متن درون تصاویر (In-image Text Rendering) است. گوگل ادعا میکند که مدل جدیدش عملکرد بهتری نسبت به رقبای دیگر دارد. اما طبق بررسیهای اولیه، نتیجهها هنوز به کیفیت ایدهآل نرسیدهاند.
این دستاورد، نوید آیندهای را میدهد که در آن، هوش مصنوعی قادر خواهد بود هر نوع محتوایی را در لحظه تولید کند؛ از متن و تصویر گرفته تا صدا، ویدیو، گرافیک سهبعدی و حتی اشیای فیزیکی قابلچاپ با پرینتر سهبعدی (3D Printing). به زبان ساده، چیزی شبیه «هولودک» (Holodeck) در مجموعهی علمیتخیلی پیشتازان فضا (Star Trek)، البته بدون توانایی تکثیر ماده.
چالشها و محدودیتها: هنوز در ابتدای راهیم
گوگل تأکید میکند که این مدل هنوز در مرحلهی اولیه است. برخلاف مدلهای حجیمتر، این نسخهی کوچکتر برای اجرای سریعتر و ارزانتر طراحی شده است. به همین دلیل، تمام اینترنت را در خود جای نداده و اطلاعات تصویریاش هنوز محدود است. دادههای آموزشی این مدل ترکیبی از اطلاعات عمومی و دادههای مصنوعی هدفمند (Targeted Synthetic Data) است که برای بهبود کیفیت تولیدات آن استفاده شدهاند.
البته با پیشرفت روشهای آموزش مدلهای هوش مصنوعی و کاهش هزینههای پردازشی، انتظار میرود که این فناوری خیلی سریع رشد کند. همانطور که مدلهای تصویری مثل استیبل دیفیوژن (Stable Diffusion) و میدجِرنی (Midjourney) در مدت کوتاهی جهش بزرگی داشتند، مدلهای چندرسانهای مانند جمینای ۲.۰ فلش هم میتوانند در آیندهای نزدیک، کیفیتی حیرتانگیز پیدا کنند.
جهانی که در آن، واقعیت و تخیل یکی میشوند
تحقیقات در این حوزه نشان میدهند که ما در آستانهی تحولی بزرگ در رسانههای دیجیتال هستیم. زمانی نهچندان دور، هر فرد میتواند با چند کلمه، جهانهایی جدید خلق کند، تصاویری از هیچ بسازد، داستانهایی با تصاویر هماهنگ تولید کند و دنیای دیجیتال را با تخیلش شکل دهد.
حالا سوال اینجاست که آیا این آغاز پایان روشهای سنتی طراحی و ویرایش تصویر است؟ آیا بهزودی نیاز به فتوشاپ و ابزارهای مشابه از بین میرود؟ شاید نه به این زودی، اما یک چیز قطعی است: آیندهی گرافیک دیجیتال، دیگر هرگز مانند گذشته نخواهد بود.
منبع: خبرآنلاین