کدام مدل هوش مصنوعی از بقیه باهوشتر است؟ مقایسه بر اساس تست IQ + جدول

دادههای جدیدی که توسط Tracking AI جمعآوری شدهاند، با استفاده از آزمون هوش منسا نروژ، رتبهبندی جالبی از باهوشترین مدلهای هوش مصنوعی ارائه میدهند. این آزمون که به سختی و دقتش در سنجش هوش انسانی مشهور است، اکنون معیاری برای ارزیابی تواناییهای شناختی هوش مصنوعی شده است.
در دنیای امروز که هوش مصنوعی به سرعت در حال پیشرفت است، این سوال مطرح میشود که مدلهای هوش مصنوعی چقدر باهوش هستند و در مقایسه با هوش انسانی چگونه عمل میکنند؟
دادههای جدیدی که توسط Tracking AI جمعآوری شدهاند، با استفاده از آزمون هوش منسا نروژ، رتبهبندی جالبی از باهوشترین مدلهای هوش مصنوعی ارائه میدهند. این آزمون که به سختی و دقتش در سنجش هوش انسانی مشهور است، اکنون معیاری برای ارزیابی تواناییهای شناختی هوش مصنوعی شده است.
مقیاس هوش: انسان در برابر هوش مصنوعی
برای درک بهتر امتیازات کسبشده توسط هوش مصنوعی، یادآوری این نکته ضروری است که میانگین نمره هوش انسانی بین ۹۰ تا ۱۱۰ قرار دارد. کسب نمرهای بالاتر از ۱۳۰ در این آزمون، نشانهای از سطح نبوغ و هوش فوقالعاده محسوب میشود.
پیشتازان هوش مصنوعی در آستانه نبوغ
در این رتبهبندی، مدل OpenAI o3 با کسب نمره ۱۳۵ در آزمون هوش منسا، در صدر قرار گرفته و به وضوح در دسته «نابغه» جای میگیرد. این مدل که بخشی از ChatGPT، یکی از پرکاربردترین ابزارهای هوش مصنوعی در جهان است، تواناییهای چشمگیری در پردازش و تولید متن از خود نشان داده است.
پس از OpenAI o3، مدلهای دیگری نیز با امتیازات بالا خودنمایی میکنند. Claude-4 Sonnet از Anthropic با نمره ۱۲۷ و Gemini 2.0 Flash Thinking از گوگل با نمره ۱۲۶، فاصله چندانی با صدر جدول ندارند. همچنین، نسخههای جدیدتر مانند Gemini 2.5 Pro و OpenAI o4 mini هر دو امتیاز بالای ۱۲۰ را کسب کردهاند که نشاندهنده عملکردی بالاتر از میانگین هوش انسانی است.
جدول زیر، رتبهبندی کامل مدلهای هوش مصنوعی بر اساس نمرات آزمون هوش منسا نروژ را نشان میدهد:
نام مدل | نمره آزمون هوش منسا نروژ |
---|---|
OpenAI o3 | ۱۳۵ |
Claude-4 Sonnet | ۱۲۷ |
Gemini 2.0 Flash Thinking Exp. | ۱۲۶ |
Gemini 2.5 Pro Exp. | ۱۲۴ |
OpenAI o4 mini | ۱۲۲ |
Claude-4 Opus | ۱۲۰ |
Grok-3 Think | ۱۱۲ |
DeepSeek R1 | ۱۰۶ |
Llama 4 Maverick | ۱۰۵ |
OpenAI o1 Pro | ۱۰۲ |
DeepSeek V3 | ۱۰۰ |
GPT4.5 Preview | ۹۹ |
Grok-3 | ۹۷ |
Gemini 2.5 Pro Exp. (Vision) | ۹۶ |
GPT-4o | ۹۳ |
OpenAI o4 mini high | ۹۲ |
Claude-3.7 (Vision) | ۹۱ |
Bing Copilot | ۸۶ |
Mistral | ۸۵ |
OpenAI o1 Pro (Vision) | ۸۳ |
OpenAI o3 (Vision) | ۷۲ |
Llama-3.2 (Vision) | ۷۰ |
GPT-4o (Vision) | ۶۳ |
Grok-3 Think (Vision) | ۶۰ |
تفاوتهای چشمگیر: هوش متنی در برابر هوش بینایی
نکته قابل توجه در این بررسی، تسلط مدلهای متنمحور در ۱۰ رتبه برتر است. این مدلها که قابلیت پردازش تصاویر را ندارند، نشان دادهاند که در استدلال و تفکر مبتنی بر کلمات، بسیار قوی عمل میکنند. این موضوع نشان میدهد که استدلال از طریق زبان، هنوز یک نقطه قوت بزرگ برای هوش مصنوعی محسوب میشود.
در مقابل، مدلهای هوش مصنوعی چندوجهی که قادر به پردازش تصاویر نیز هستند، عملکرد ضعیفتری را از خود نشان دادهاند. پنج مدل آخر در این رتبهبندی، همگی مدلهای بینایی هستند. به عنوان مثال، GPT-4o (Vision) از OpenAI با نمره ۶۳ و Grok-3 Think (Vision) از xAI با نمره ۶۰، به طور قابل توجهی پایینتر از میانگین هوش انسانی قرار گرفتهاند. این امر به این معناست که تفسیر و حل مسائل بصری، همچنان یک چالش بزرگ برای هوش مصنوعی محسوب میشود.
نتیجهگیری
در مجموع، این نتایج نشان میدهند که مدلهای پیشرو هوش مصنوعی به سطوح بالایی از هوش دست یافتهاند، به طوری که برخی از آنها حتی از باهوشترین ذهنهای انسانی نیز پیشی گرفتهاند. با ادامه این روند، انتظار میرود که تفاوتهای بین هوش مصنوعی و هوش انسانی در آینده بیش از پیش نمایان شود.
منبع: روزیاتو