«هوش مصنوعی» چیست و چطور کار میکند؟
این رشته هیجانانگیز از علوم کامپیوتر بر فناوریهایی متمرکز است که هوش انسانی را تقلید میکنند. سیستمهای هوش مصنوعی در سالهای اخیر بسیار رایجتر شدهاند. اما هوش مصنوعی دقیقا چیست و چطور کار میکند؟
فرادید| هوش مصنوعی (AI) به هر نوع فناوری اطلاق میشود که برخی از جنبههای هوش انسانی را تقلید میکند. دهههاست هوش مصنوعی یک رشتۀ برجسته در علوم کامپیوتر بوده است. وظایف هوش مصنوعی میتواند شامل هر چیزی شود، از انتخاب اشیاء در یک صحنه بصری گرفته تا دانستن نحوه ساخت یک جمله یا حتی پیشبینی حرکات قیمت سهام.
به گزارش فرادید، دانشمندان از ابتدای عصر محاسبات، برای ساختن هوش مصنوعی تلاش کردهاند. در بخش زیادی از قرن گذشته، رویکرد پیشرو شامل ایجاد پایگاههای اطلاعاتی بزرگی از حقایق و قوانین و سپس دریافت برنامههای کامپیوتری مبتنی بر منطق برای استفاده از آنها در تصمیمگیری میشد. اما این قرن متفاوت است. در این قرن، کامپیوترها یاد گرفتند حقایق و قوانین خودشان را با تجزیه و تحلیل یاد بگیرند. این امر منجر به پیشرفتهای اساسی در این زمینه شده است.
در طول دهه گذشته، ماشینها قابلیتهای ظاهراً «فوقبشری» را در همه چیز به نمایش گذاشتهاند، از تشخیص سرطان سینه در تصاویر پزشکی گرفته تا بازیهای شیطنتآمیز رومیزی و حتی پیشبینی ساختار پروتئینها!
از زمان ظهور چت جیپیتیِ چتبات مدل زبانی بزرگ (LLM) در اواخر سال ۲۰۲۲، توافق فزایندهای وجود داشت مبنی بر اینکه ما در آستانه تکرار هوش عمومیتری مشابه آنچه در انسانها دیده میشود هستیم: هوش عمومی مصنوعی (AGI). سارا هوکر، رئیس Cohere For AI (یک آزمایشگاه تحقیقاتی غیرانتفاعی که توسط شرکت هوش مصنوعی Cohere ایجاد شده) میگوید: «نمیتوان اهمیت این تغییر را نادیده گرفت.»
هوش مصنوعی چگونه کار میکند؟
دانشمندان میتوانند رویکردهای زیادی برای ساختن سیستمهای هوش مصنوعی اتخاذ کنند، اما امروزه یادگیری ماشینی بیشترین استفاده را دارد و شامل واداشتن رایانه به تجزیه و تحلیل دادهها برای شناسایی الگوهایی میشود که میتوان از آنها برای پیشبینی استفاده کرد.
فرآیند یادگیری با یک الگوریتم اداره میشود (دنبالهای از دستورالعملهای نوشتهشده توسط انسان که به رایانه میگوید چگونه دادهها را تجزیه و تحلیل کند) و خروجی این فرآیند، یک مدل آماری است که تمام الگوهای کشفشده را رمزگذاری میکند که میتوان آن را با دادههای جدید برای پیشبینی تغذیه کرد.
انواع بسیاری از الگوریتمهای یادگیری ماشینی وجود دارد، اما امروزه شبکههای عصبی از پرمصرفترین آنها هستند؛ مجموعهای از الگوریتمهای یادگیری ماشینی که آزادانه روی مغز انسان مدلسازی شدهاند و با تنظیم قدرت اتصالات بین شبکهی «نرونهای مصنوعی» حین عبور از دادههای آموزشی خود، توانایی «یادگیری» دارند. این چیزی است که بسیاری از محبوبترین سرویسهای هوش مصنوعی امروزی، مانند تولیدکنندههای متن و تصویر، از آن استفاده میکنند.
امروزه اکثر تحقیقات پیشرفته شامل یادگیری عمیق میشود که به استفاده از شبکههای عصبی بسیار بزرگ با لایههای زیادی از نورونهای مصنوعی اشاره دارد. این ایده از دهه ۱۹۸۰ وجود داشته، اما دادههای عظیم و نیازهای محاسباتی، کاربردها را محدود میکند. سال ۲۰۱۲، محققان کشف کردند تراشههای کامپیوتری تخصصی که به واحدهای پردازش گرافیکی یا GPU معروف هستند، یادگیری عمیق را سرعت میبخشند. از آن زمان یادگیری عمیق استاندارد طلایی در تحقیقات بوده است.
هوکر میگوید: «شبکههای عصبی عمیق نوعی یادگیری ماشینی بر روی استروئیدها هستند. هر دو از نظر محاسباتی گرانترین مدلها هستند، اما معمولاً بزرگ، قدرتمند و گویا هستند.»
با این حال، همه شبکههای عصبی یکسان نیستند. پیکربندیهای مختلف یا «معماریها» برای کارهای مختلف مناسب هستند. شبکههای عصبی پیچشی دارای الگوهای اتصال الهامگرفته از قشر بینایی حیوانات هستند و در کارهای بصری برتری دارند. شبکههای عصبی مکرر که دارای نوعی حافظه داخلی هستند، در پردازش دادههای متوالی تخصص دارند.
الگوریتمها را میتوان بسته به کاربردهای متفاوت آموزش داد. رایجترین رویکرد یعنی «یادگیری نظارتشده» شامل افراد میشود که به هر قطعه از دادهها برچسبهایی برای هدایت فرآیند یادگیریِ الگو میزنند. برای مثال، شما میتوانید برچسب «گربه» را به تصاویر گربهها اضافه کنید.
در «یادگیری نظارتنشده»، دادههای آموزشی برچسب ندارند و ماشین باید خودش کارها را انجام دهد. این کار به دادههای بسیار بیشتری نیاز دارد و ممکن است به سختی انجام شود، اما از آنجا که فرآیند یادگیری با پیشفرضهای انسانی محدود نمیشود، میتواند به مدلهای غنیتر و قدرتمندتر منجر شود. بسیاری از پیشرفتهای اخیر در LLM از این رویکرد استفاده کردهاند.
جدیدترین رویکرد اصلی آموزشی، «یادگیری تقویتی» است که به هوش مصنوعی اجازه یادگیری با آزمون و خطا را میدهد. از این رویکرد معمولاً برای آموزش سیستمها یا رباتهای هوش مصنوعی بازیکن استفاده میشود و شامل تلاش مکرر یک کار و بهروزرسانی مجموعهای از قوانین داخلی در واکنش به بازخورد مثبت یا منفی میشود. این رویکرد به مدل پیشگامانه AlphaGo دیپمایند گوگل کمک کرد.
هوش مصنوعی مولد چیست؟
با وجود اینکه در دهه گذشته، یادگیری عمیق موفق به کسب یک رشته موفقیتهای بزرگ شده، تعداد کمی مانند قابلیتهای مکالمه غیرعادی انسانی ChatGPT، تصورات عمومی را به خود جلب کردهاند.
این یکی از چندین سیستم هوش مصنوعی مولد است که از یادگیری عمیق و شبکههای عصبی برای تولید خروجی بر اساس ورودی کاربر از جمله متن، تصاویر، صدا و حتی ویدیو استفاده میکند.
تولیدکنندههای متن مانند ChatGPT با استفاده از زیرمجموعهای از هوش مصنوعی به نام «پردازش زبان طبیعی» یا NLP کار میکنند. ظهور این پیشرفت را میتوان در یک معماری نوین یادگیری عمیق جستجو کرد که سال ۲۰۱۷ توسط دانشمندان گوگل به نام «تبدیلکننده یا ترانسفورماتور» معرفی شد.
الگوریتمهای ترانسفورماتور در یادگیری بدون نظارت روی مجموعههای عظیم دادههای متوالی بهویژه، تکههای بزرگ متن نوشتهشده، تخصص دارند. آنها در انجام این کار خوب هستند چون بسیار بهتر از رویکردهای قبلی قادر به ردیابی روابط بین نقاط داده دور هستند که به آنها اجازه میدهد زمینهی آنچه را که به آن نگاه میکنند، بهتر درک کنند.
هوکر میگوید: «چیزی که بعد از این میگویم به آنچه قبلاً گفتم بستگی دارد، زبان ما با زمان متصل است. این یکی از پیشرفتهای اساسی بود؛ توانایی دیدن کلمات به عنوان یک کل.»
LLMها با پوشاندن کلمه بعدی در یک جمله قبل از تلاش برای حدس زدن آن بر اساس آنچه قبلاً آمده، یاد میگیرند. دادههای آموزشی از قبل حاوی پاسخ هستند، بنابراین این رویکرد نیازی به برچسبگذاری انسانی ندارد و این امکان را فراهم میکند که به سادگی دستههایی از دادهها را از اینترنت گرفت و آنها را وارد الگوریتم کرد. ترانسفورماتورها میتوانند چندین نمونه از این بازی آموزشی را به صورت موازی انجام دهند که به آنها امکان میدهد دادهها را بسیار سریعتر زیرو رو کنند.
ترانسفورماتورها با آموزش روی چنین حجم وسیعی از دادهها، میتوانند مدلهای بسیار پیچیدهای از زبان انسان را تولید کنند، از این رو به آنها «مدل زبانی بزرگ» میگویند. آنها میتوانند متن پیچیده و طولانی را بسیار شبیه متنی که انسان میتواند تولید کند، تجزیه و تحلیل و تولید کنند. ترانسفورماتورها فقط زبان را متحول نکردهاند. همین معماری را میتوان روی دادههای متنی و تصویری به صورت موازی آموزش داد و مدلهایی مانند Stable Diffusion و DALL-E بوجود آورد که تصاویری با وضوح بالا را از یک توضیح نوشتاری ساده تولید میکنند.
ترانسفورماتورها نقش اصلی را در مدل AlphaFold ۲ Google Deepmind نیز ایفا کردند که میتواند ساختارهای پروتئینی را از توالی اسیدهای آمینه تولید کند. این توانایی تولید دادههای اصلی به جای تجزیه و تحلیل ساده دادههای موجود، دلیلیست که به این مدلها «هوش مصنوعی مولد» میگویند.
تفاوت هوش مصنوعی باریک با هوش عمومی مصنوعی (AGI)
مردم به دلیل وسعت وظایفی که LLM میتواند انجام دهد، در مورد آن هیجانزده هستند. بیشتر سیستمهای یادگیری ماشینی برای حل یک مشکل خاص آموزش دیدهاند، مانند تشخیص چهره در فید ویدیویی یا ترجمه از یک زبان به زبان دیگر. این مدلها «هوش مصنوعی باریک» نامیده میشوند چون فقط میتوانند وظیفه خاصی را که برای آن آموزش دیدهاند انجام دهند.
بیشتر سیستمهای یادگیری ماشینی برای حل یک مشکل خاص مانند تشخیص چهره در فید ویدیویی یا ترجمه از یک زبان به زبان دیگر در سطح مافوق انسانی آموزش دیدهاند، به این ترتیب که بسیار سریعتر و بهتر از انسان عمل میکنند. اما LLMهایی مانند ChatGPT نمایانگر یک تغییر مرحلهای در قابلیتهای هوش مصنوعی هستند چون یک مدل واحد میتواند طیف وسیعی از وظایف را انجام دهد: به سوالات در مورد موضوعات مختلف پاسخ دهد، اسناد را خلاصه کند، بین زبانها ترجمه کند و کد بنویسد.
این توانایی تعمیم آموختهها برای حل بسیاری از مسائل مختلف، برخی را به این گمان سوق داده که LLM میتواند گامی به سوی AGI باشد. AGI به یک هوش مصنوعی در آینده فرضی اشاره دارد که میتواند بر هر کار شناختی یک انسان تسلط یابد، درباره مشکلات، استدلال انتزاعی کند و بدون آموزش خاص با موقعیتهای جدید سازگار شود.
علاقهمندان به هوش مصنوعی پیشبینی میکنند به محض دستیابی به AGI، پیشرفت تکنولوژی به سرعت شتاب خواهد گرفت؛ نقطه عطفی معروف به تکینگی که پس از آن، پیشرفتها به صورت تصاعدی محقق میشوند. خطرات وجودی درکشدهای نیز در کار است، از اختلال عظیم اقتصادی و بازار کار گرفته تا پتانسیل هوش مصنوعی برای کشف عوامل بیماریزا یا سلاحهای جدید.
اما هنوز بحثهایی وجود دارد مبنی بر اینکه آیا LLMها پیشروی یک AGI خواهند بود یا صرفاً یک معماری در شبکهای گستردهتر یا اکوسیستمی از معماریهای AI که برای AGI مورد نیاز است. برخی میگویند LLMها فرسنگها با تقلید استدلال انسان و قابلیتهای شناختی فاصله دارند. به گفته مخالفان، این مدلها صرفاً مقادیر زیادی از اطلاعات را به خاطر میسپارند که آنها را به گونهای ترکیب میکنند که تصور نادرستی از درک عمیقتر ایجاد میکند. این به آن معناست که آنها توسط دادههای آموزشی محدود شدهاند و اساساً با سایر ابزارهای هوش مصنوعی باریک تفاوت ندارند.
هوکر میگوید با این حال، بدیهی است LLMها نشاندهنده یک تغییر لرزهای در نحوه رویکرد دانشمندان به توسعه هوش مصنوعی هستند. اکنون تحقیقات پیشرفته بهجای آموزش مدلهای مربوط به وظایف خاص، این مدلهای از پیش آموزشدیده و عموماً توانا را انتخاب کرده و آنها را با موارد استفاده خاص تطبیق میدهند. این امر سبب شده به آنها «مدلهای بنیاد» بگویند.
هوکر میافزاید: «مردم از مدلهای بسیار تخصصی که فقط یک کار را انجام میدهند به مدل پایه که همه چیز را انجام میدهد، حرکت میکنند. آنها مدلهایی هستند که همه چیز بر اساس آنها ساخته شده است.»
از هوش مصنوعی در دنیای واقعی چگونه استفاده میشود؟
فناوریهایی مانند یادگیری ماشینی همه جا وجود دارد. الگوریتمهای توصیه مبتنی بر هوش مصنوعی تصمیم میگیرند چه چیزی را در Netflix یا YouTube تماشا کنید، در حالی که مدلهای ترجمه امکان تبدیل فوری یک صفحه وب از یک زبان خارجی به زبان خودتان را فراهم میکنند. بانک شما احتمالاً از مدلهای هوش مصنوعی برای شناسایی هرگونه فعالیت غیرعادی در حساب شما استفاده میکند (از جمله کلاهبرداری) و دوربینهای نظارتی و خودروهای خودران از مدلهای بینایی رایانهای برای تشخیص افراد و اشیاء از فیدهای ویدیویی استفاده میکنند.
اما ابزارها و خدمات هوش مصنوعی مولد، فراتر از چتباتهای جدید مانند ChatGPT، وارد دنیای واقعی شدهاند. بیشتر توسعهدهندگان اصلی هوش مصنوعی اکنون یک چتبات دارند که میتواند به سوالات کاربران درباره موضوعات مختلف پاسخ دهد، اسناد را تجزیه و تحلیل و خلاصه کند و به چند زبان ترجمه کند. این مدلها در موتورهای جستجو نیز ادغام میشوند، مانند Gemini در Google و شرکتها نیز در حال ساخت دستیارهای دیجیتال مبتنی بر هوش مصنوعی هستند که به برنامهنویسان کمک میکند تا کدنویسی کنند. هوش مصنوعی حتی میتواند ابزاری برای افزایش بهرهوری برای افرادی باشد که از پردازشگرهای کلمه یا کلاینتهای ایمیل استفاده میکنند.
ابزارهای هوش مصنوعی به سبک چتبات، رایجترین سرویس هوش مصنوعی مولد هستند، اما LLMها با وجود عملکرد چشمگیری که دارند، هنوز تا کامل شدن فاصله دارند. آنها در مورد اینکه چه کلماتی باید از یک دستور خاص پیروی کنند، حدسهای آماری میزنند. آنها معمولاً نتایجی حاکی از درک تولید میکنند، اما با اطمینان پاسخهای قابلقبول اما اشتباهی هم معروف به «توهمات» تولید میکنند.
هوش مصنوعی مولد به طور فزایندهای در حال رایج شدن است، اما هنوز مشخص نیست این ابزارها کجا و چگونه بیشترین کارایی را خواهند داشت. با توجه به جدید بودن این فناوری، محتاط بودن در مورد چگونگی عرضه سریع آن دلیل دارد. هوکر میگوید: «بسیار غیرمعمول است که چیزی در مرز امکان تکنیکی باشد، اما همزمان، به طور گسترده بکار گرفته شود. این کار خطرات و چالشهای خاص خودش را دارد.»
مترجم: زهرا ذوالقدر