الذكاء الاصطناعي

الذكاء الاصطناعي يتفوق على الأطباء في مهام متعددة

4 مايو 2026 21:57

في دراسة حديثة نُشرت في مجلة "ساينس" (Science)، أجرى باحثون تقييمًا شاملًا لنموذج اللغة الكبير (LLM) من OpenAI o1، وذلك بمقارنته بأداء مئات الأطباء لاختبار قدرته على الاستدلال السريري في مهام معقدة.
شملت الدراسة جمع البيانات عبر خمسة معايير تجريبية، بالإضافة إلى دراسة واقعية في قسم الطوارئ، تضمنت ألغازًا طبية معيارية وسيناريوهات حقيقية من غرف الطوارئ.

كشفت نتائج الدراسة أن نموذج الذكاء الاصطناعي تفوق عمومًا على أداء الأطباء البشريين في مهام متعددة، مما يشير إلى أن النماذج المتقدمة ربما تكون قد تجاوزت الآن العديد من اختبارات الاستدلال السريري المعيارية المعتمدة. تشير هذه الدراسة إلى أنه في المستقبل القريب، قد يتجاوز الذكاء الاصطناعي مجرد استرجاع المعلومات ليقدم آراءً سريرية ثانية متطورة وموثوقة.

الذكاء الاصطناعي مقابل أداء الأطباء

هدفت هذه الدراسة إلى التحقق مما إذا كان الجيل الأحدث من نماذج الذكاء الاصطناعي (وتحديدًا نموذج o1-preview من OpenAI) قادرًا على مضاهاة أو تجاوز أداء الخبراء البشريين في مواجهة تحديات تشخيصية وإدارية سريرية متعددة ومختلفة. تضمنت بيئات الاختبار المتنوعة منهجيًا في الدراسة ألغازًا تقليدية استندت إلى بيانات طبية من 143 حالة (NEJM CPC)، لتقييم دقة التشخيص.

كما استُخدمت 20 حالة من منهج NEJM Healer، وهي منصة رقمية لتقييم المنطق السريري، لتقييم عملية الاستدلال في نموذج الذكاء الاصطناعي. وقد قيس الأداء في الواقع العملي من خلال دراسة معماة أُجريت في بوسطن، حيث تم اختبار نموذج o1 مقابل اثنين من الأطباء المتخصصين باستخدام 76 سجلًا طبيًا غير منظم جُمعت مباشرة من قسم طوارئ في مستشفى أكاديمي رئيسي.

وقورن أداء النموذج بأداء مجموعات بيانات تضم مئات الممارسين، بمن فيهم الأطباء المقيمون (الأطباء المتدربون) والأطباء المتخصصون (الخبراء ذوو الخبرة). شمل التحليل الإحصائي مقياس بوند لقياس دقة التشخيص، ومقياس R-IDEA (مقياس مُنقّح للأفكار السريرية)، وهو مقياس مُعتمد من 10 نقاط لتقييم مدى جودة توثيق الطبيب لمنطقه السريري، وذلك لتقييم جودة عملية التفكير لدى النموذج.
اقرأ أيضا... الذكاء الاصطناعي يساعد في إجراء فحوصات الموجات فوق الصوتية

الذكاء الاصطناعي يتفوق في مختلف المهام السريرية

أخبار ذات صلة

«الإمارات للدواء» تبحث تنفيذ التحوّل نحو الذكاء الاصطناعي المساعد

الذكاء الاصطناعي يُحسّن التنبؤ بمقاومة السرطان للأدوية

كشفت التحليلات الإحصائية لبيانات تقييم مجلة نيو إنجلاند الطبية (NEJM) عن نتائج متسقة إلى حد كبير: فقد تفوق الذكاء الاصطناعي مرارًا وتكرارًا على الأداء البشري. ففي تحديات NEJM CPC، على سبيل المثال، وُجد أن o1-preview يُدرج التشخيص الصحيح في قائمته بنسبة 78.3%. وعند مقارنته تحديدًا على نفس الحالات السبعين المُدرجة في مجموعة بيانات التدريب، حقق o1-preview دقة بلغت 88.6%، وهي نسبة أعلى بكثير من دقة GPT-4 التي بلغت 72.9%.

لوحظ أن قدرة الذكاء الاصطناعي على اتخاذ القرارات العلاجية، أي قدرته على تحديد الخطوة الأمثل التالية للمريض، كانت مثيرة للإعجاب بشكل خاص. في دراسة شملت خمس حالات معقدة، حقق نظام o1-preview متوسطًا قدره 89%. في المقابل، لم يحقق الأطباء، الذين استخدموا مصادر تقليدية مثل محركات البحث وقواعد البيانات الطبية، سوى متوسط قدره 34% فقط.

في تجربة أجريت في قسم الطوارئ، تبين أن الفجوة بين نموذج o1 المدعوم بالذكاء الاصطناعي ونظرائه من الخبراء البشريين تبرز بشكل واضح في مرحلة "الفرز الأولي". تُعد هذه المرحلة حاسمة سريريًا، إذ تحدث عند وصول المريض، حيث تكون المعلومات شحيحة، والقرارات السريعة ضرورية.

في هذه المرحلة، حدد نموذج o1 التشخيص الصحيح بنسبة 67.1%، بينما حقق الطبيبان الخبيران 55.3% و50.0% على التوالي. علاوة على ذلك، في حالات NEJM Healer، حقق الذكاء الاصطناعي درجة مثالية في 78 حالة من أصل 80، متفوقًا بذلك على كل من الأطباء المقيمين والأطباء الاستشاريين.

من المرجح أن تكون هذه الدراسة هي الأولى التي تخلص إلى أن نماذج التعلم الآلي قد بلغت مستوى من التقدم الحسابي والاستدلالي يمكّنها من تقديم دعم تشخيصي عالي المستوى في مهام المعايير.

ويرى الباحثون أن التحسن السريع لهذه الأدوات يؤكد الحاجة الملحة لإجراء تجارب سريرية مستقبلية لاختبار قابليتها للتطبيق السريري في بيئات رعاية المرضى في العالم الحقيقي، ولفهم أفضل لكيفية التكامل بين عمل الأطباء وأنظمة الذكاء الاصطناعي معًا.
مصطفى أوفى (أبوظبي)

تشخيص

الأطباء

الذكاء الاصطناعي