گوگل مرزهای ترجمه را جابه‌جا کرد

گوگل مرزهای ترجمه را جابه‌جا کرد

این سامانه به ‌طور خودکار زبان‌ها را تشخیص می‌دهد و گفتاری تولید می‌کند که لحن، سرعت و زیر و بمی صدای گوینده واقعی را بازتاب می‌دهد. برخلاف ترجمه‌های سنتی که به ‌صورت نوبتی انجام می‌شوند، ترجمه زنده جمینای ۳.۵ یا (Gemini 3.5 Live Translate) به‌ طور پیوسته صوت تولید می‌کند و تنها چند ثانیه تأخیر دارد تا دقت معنایی و حفظ بافت گفتار تضمین شود، در حالی که همچنان با سخنان گوینده هماهنگ باقی می‌ماند.

کد خبر : ۳۰۲۳۸۴
بازدید : ۵

گوگل از یک مدل ترجمه صوتی جدید رونمایی می‌کند که هدف آن ارائه ترجمه صوتی روان و طبیعی در بیش از ۷۰ زبان است. این پیشرفت بر پایه دو دهه تلاش گوگل در زمینه یادگیری ماشینی و ترجمه زبان بنا شده است.

این سامانه به ‌طور خودکار زبان‌ها را تشخیص می‌دهد و گفتاری تولید می‌کند که لحن، سرعت و زیر و بمی صدای گوینده واقعی را بازتاب می‌دهد. برخلاف ترجمه‌های سنتی که به ‌صورت نوبتی انجام می‌شوند، ترجمه زنده جمینای ۳.۵ یا (Gemini 3.5 Live Translate) به‌ طور پیوسته صوت تولید می‌کند و تنها چند ثانیه تأخیر دارد تا دقت معنایی و حفظ بافت گفتار تضمین شود، در حالی که همچنان با سخنان گوینده هماهنگ باقی می‌ماند.

به نقل از گجت، این فناوری در محصولات مختلف گوگل در حال عرضه است. کاربران سازمانی نیز از همین ماه به نسخه پیش‌نمایش خصوصی این قابلیت در گوگل‌میت دسترسی خواهند داشت.

برای کاربران عادی این قابلیت در سیستم‌عامل‌های اندروید و iOS در دسترس خواهد بود. این یکپارچه‌سازی از بیش از ۷۰ زبان پشتیبانی می‌کند که نسبت به محدودیت‌های پیشین، گسترش قابل توجهی محسوب می‌شود.

تجربه کاربری بهبودیافته

کاربران اندروید از یک قابلیت جدید به نام «حالت شنیدن» (Listening Mode) در اپلیکیشن گوگل ترنسلیت بهره‌مند خواهند شد.

این ویژگی به کاربران امکان می‌دهد ترجمه‌ها را مستقیما از طریق بلندگوی مکالمه تلفن خود بشنوند؛ قابلیتی که برای شنیدن خصوصی بدون نیاز به هدفون مفید است. گوگل میت نیز ارتقاء خواهد یافت و از بیش از ۲۰۰۰ ترکیب زبانی در یک جلسه واحد پشتیبانی خواهد کرد؛ جهشی عظیم نسبت به قابلیت‌های قبلی این سرویس که عمدتا بر زبان انگلیسی متمرکز بودند. هدف از این تغییرات، فراهم کردن ارتباطی روان و بی‌وقفه در سطح جهانی است.

مقاومت این مدل در برابر نویز محیطی و توانایی آن در مدیریت ورودی‌های چندزبانه بدون نیاز به تنظیمات دستی، از ویژگی‌های کلیدی آن برای استفاده در شرایط واقعی به شمار می‌رود. این قابلیت‌ها آن را برای ترجمه همزمان در جلسات، کلاس‌های آموزشی و پخش‌های زنده مناسب می‌کند.

بازخوردهای اولیه شرکای تجاری نشان می‌دهد کیفیت ترجمه، دقت و تأخیر پایین این فناوری بسیار چشمگیر بوده است.

تمام صداهای تولیدشده توسط هوش مصنوعی با فناوری SynthID نشانه‌گذاری دیجیتال خواهند شد تا قابل شناسایی باشند و از انتشار اطلاعات نادرست جلوگیری شود.

منبع: ایسنا

۰
نظرات بینندگان
تازه‌‌ترین عناوین
پربازدید