بات السباق بين الإنسان والآلة أكثر وضوحًا، مع إطلاق شركة "أوبن ايه آي" مقياساً جديداً يختبر كيفية أداء نماذج الذكاء الاصطناعي الخاصة بها مقارنة بالمهنيين البشر، ويشمل مجموعة واسعة من الصناعات والوظائف.

وجاءت النتائج الأخيرة لتكشف عن تقدم كبير حققته النسخة الأحدث GPT-5، لكنها أيضًا أظهرت أن الطريق أمام الذكاء الاصطناعي للوصول إلى مستوى الكفاءة البشرية الكاملة لا يزال طويلًا ومعقدًا.

الاختبار، الذي أُطلق عليه اسم "GDPval"، يمثل محاولة أولية لفهم مدى قرب أنظمة "أوبن أي آي" من التفوق على البشر في الأعمال ذات القيمة الاقتصادية، وهو جزء رئيسي من مهمة الشركة الأساسية المتمثلة في تطوير الذكاء الاصطناعي العام (AGI).

مقياس جديد لمهارات الذكاء الاصطناعي

يستند اختبار GDPval إلى تسعة قطاعات أساسية تشكّل الجزء الأكبر من الناتج المحلي الإجمالي الأميركي، من بينها: الصحة، التمويل، الصناعة، والحكومة. ويشمل التقييم 44 مهنة مختلفة، بدءًا من الممرضين ومرورًا بـ المهندسين ووصولًا إلى الصحفيين.

أجرى الاختبار مقارنة بين تقارير أنشأتها النماذج الذكية مع تقارير كتبها خبراء في المجال نفسه، ثم تم تقييم أيّها يتفوق من حيث الدقة والجودة.وفق موقع "تك كرانش" المتخصص في موضوعات التكنولوجيا.

قفزة نوعية لـ GPT-5

في النسخة السابقة من الاختبار، لم يتجاوز أداء GPT-4o نسبة 13.7% من المكاسب أو التعادلات مع البشر. أما اليوم، فقد حقق GPT-5 قرابة ثلاثة أضعاف هذه النتيجة، بينما حصد الإصدار الأكثر قوة GPT-5-high نسبة 40.6% من التقييمات التي وضعته في مستوى مساوٍ أو متفوق على خبراء الصناعة.

وعند اختبار نموذج منافس، وهو Claude Opus 4.1 من شركة أنثروبيك، جاءت النتيجة أعلى قليلًا إذ تفوق على البشر أو تساوى معهم في 49% من الحالات. لكن خبراء أشاروا إلى أن هذه النسبة قد تعكس براعة النموذج في تقديم رسومات وجداول جذابة بصريًا أكثر من كونه يتفوق أداءً على صعيد التحليل المعمق.

تباين الأداء بين المهن

تكشف نتائج الاختبار عن تفاوت ملحوظ في قدرات GPT-5: في المجالات الطبية مثل التمريض أو التحليل السريري،حيث أظهر النموذج قدرة على معالجة المعلومات بسرعة، لكنه لم يتمكن من مضاهاة حساسية القرارات السريرية التي يتخذها الإنسان.

في المقابل، في المجالات الإعلامية والبحثية مثل الصحافة أو إعداد التقارير الاقتصادية، حقق الذكاء الاصطناعي أداءً أكثر تنافسية بفضل مهاراته في توليد النصوص المتماسكة والاعتماد على قواعد بيانات ضخمة.

ما وراء الأرقام

هناك العديد من المقاييس المعتمدة لتقييم تطور نماذج الذكاء الاصطناعي وقياس ما إذا كانت ترقى إلى مستوى "الأحدث عالميًا". من أبرزها AIME 2025 لاختبار مسائل الرياضيات التنافسية، وGPQA Diamond المخصص لأسئلة علمية متقدمة على مستوى الدكتوراه. غير أن هذه المقاييس باتت تقترب من مرحلة التشبع، ما دفع الباحثين إلى الدعوة لتطوير اختبارات جديدة أكثر شمولًا تعكس كفاءة النماذج في المهام الواقعية اليومية.

من جانبها أكدت "أوبن اية آي" أن الاختبار الجديد لا يغطي سوى جانب محدود من مهام العمل الواقعية، إذ يركّز على إنتاج تقارير بحثية مكتوبة، في حين أن الواقع المهني يتطلب مهارات أكثر تعقيدًا مثل: التفاعل المباشر مع البشر، واتخاذ قرارات آنية تحت ضغط، وفهم السياقات الثقافية والاجتماعية.

ولهذا تخطط الشركة إلى تطوير نسخ أكثر شمولًا من GDPval تشمل التفاعلات الحية وسير العمل التعاوني.

مستقبل المهن في ظل GPT-5

يرى الخبير آرون تشاترجي، كبير الاقتصاديين في أوبن ايه آي، أن هذه النتائج تحمل جانبًا إيجابيًا: فهي تمنح المحترفين فرصة لاستخدام النماذج الذكية لتفريغ وقتهم من المهام الروتينية والانشغال بمهام أكثر قيمة وإبداعًا.

لكنها في الوقت ذاته تثير مخاوف حقيقية حول مستقبل الوظائف التقليدية، خصوصًا تلك التي تعتمد على إنتاج محتوى قابل للأتمتة.

بين التمريض الذي يتطلب حسًّا إنسانيًا لا يُقدَّر بثمن، والصحافة التي تعتمد على صياغة النصوص وتحليل البيانات، يظهر GPT-5 كأداة قوية تقترب بخطوات ثابتة من مستوى البشر. ومع ذلك، فإن الاختبارات تكشف بوضوح أن الذكاء الاصطناعي ما زال بعيدًا عن أن يكون بديلًا كاملًا للخبرة الإنسانية، بل هو شريك يمكن أن يرفع من كفاءة العمل إذا أُحسن توظيفه.

لمياء الصديق(أبوظبي)