الهلوسة في النماذج اللغوية تمثل واحدة من أبرز التحديات التي تواجه الذكاء الاصطناعي المعاصر، فهي ظاهرة تنتج عنها عبارات تبدو صحيحة من حيث الأسلوب والصياغة لكنها في جوهرها مضللة أو غير دقيقة. هذه المشكلة لا تعكس قصورًا في قدرة النماذج على توليد لغة سليمة، بل تكشف حدودًا أعمق مرتبطة بكيفية تدريبها وتقييمها. ومع توسع استخدام أنظمة الذكاء الاصطناعي في مختلف مجالات الحياة، تزداد الحاجة، إلى الدقة والموثوقية وتعزيز الثقة والمسؤولية في نقل المعلومة.
ورقة بحثية جديدة من "أوبن أيه.آي" تسأل: لماذا لا تزال النماذج اللغوية الكبيرة مثل GPT-5 والدردشات الآلية مثل ChatGPT تُنتج "هلوسات"؟ وهل يمكن فعل شيء لتقليل هذه الظاهرة؟.
اقرأ أيضاً.. ما يجب معرفته قبل الاستخدام المكثف لـ "تشات جي بي تي": تحذيرات صريحة من ألتمان
تعريف الهلوسة في النماذج اللغوية
توضح "أوبن أيه.آي" في مدونة مرافقة للورقة أن الهلوسات هي "عبارات محتملة لكن خاطئة يولّدها النموذج اللغوي". وعلى الرغم من التحسينات المستمرة، تعترف الشركة بأن هذه المشكلة "تظل تحديًا جوهريًا لجميع النماذج اللغوية الكبيرة"، ولن يكون بالإمكان القضاء عليها تمامًا.
أمثلة على الأخطاء
قدّم الباحثون مثالًا حين سألوا أحد "الدردشات الآلية واسعة الاستخدام" عن عنوان أطروحة الدكتوراه الخاصة بآدم تاومان كالاي (أحد مؤلفي الورقة)، فحصلوا على ثلاث إجابات مختلفة، كلها خاطئة. وعندما سُئل عن تاريخ ميلاده، قدّم ثلاثة تواريخ مختلفة، جميعها غير صحيحة أيضًا. وفق ما أشار موقع "تك كرانش" المتخصص في موضوعات التكنولوجيا.
أسباب ظهور الهلوسة
يرى الباحثون أن السبب يعود جزئيًا إلى عملية التدريب الأولي، حيث يركّز النموذج على توقع الكلمة التالية بشكل صحيح من دون وجود تصنيف للبيانات بين صحيح أو خاطئ. أي أن النموذج يتعلم فقط من أمثلة للغة السليمة، ويحاول تقريب التوزيع العام لها.
ويضيفون أن الأنماط المتكررة مثل الإملاء أو الأقواس تختفي أخطاؤها مع توسع حجم التدريب، لكن الحقائق النادرة مثل تاريخ ميلاد حيوان أليف لا يمكن استنتاجها من الأنماط وحدها، مما يؤدي إلى الهلوسة.
الخلل في أسلوب التقييم
لا يركز الحل المقترح على مرحلة التدريب الأولى، بل على طرق تقييم النماذج. فالتقييمات الحالية لا تسبب الهلوسة بحد ذاتها، لكنها تضع حوافز خاطئة.
يشبّه الباحثون ذلك باختبارات الاختيار من متعدد، حيث قد ينجح التخمين العشوائي أحيانًا، بينما ترك الإجابة فارغة يعني نتيجة صفرية. وبالمثل، عندما تُقيَّم النماذج فقط على نسبة الإجابات الصحيحة تمامًا، فهي تُشجَّع على التخمين بدلًا من قول "لا أعرف".
الحل المقترح
يقترح الباحثون اعتماد أسلوب يشبه بعض الاختبارات (مثل الـSAT) التي تتضمن خصمًا للخطأ أو منح درجات جزئية عند ترك السؤال بلا إجابة، لتقليل التخمين الأعمى.و(الـSAT)هي امتحانات قياسية وبوابة مهمة للقبول الجامعي في الجامعات المرموقة حول العالم.
وتوضح "أوبن أيه.آي" أن التقييمات يجب أن تعاقب الأخطاء الواثقة أكثر من عدم اليقين، وأن تمنح درجات جزئية عندما يعبّر النموذج عن عدم يقين بشكل مناسب.
ضرورة التغيير الشامل
يؤكد الباحثون أن الأمر لا يكفي عبر إدخال "بعض الاختبارات الجديدة المراعية لعدم اليقين"، بل يجب تحديث الاختبارات واسعة الاستخدام المعتمدة على الدقة وحدها بحيث تُثني النماذج عن التخمين.
وحذر الخبراء من أنه إذا استمرت لوحات التقييم الرئيسية في مكافأة التخمينات المحظوظة، ستستمر النماذج في تعلم التخمين".
في المحصلة، تبقى الهلوسة في النماذج اللغوية ظاهرة معقدة لا يمكن تجاوزها كليًا، لكنها قابلة للتقليل من خلال تحسين آليات التدريب والتقييم معًا. وإذا كان توليد اللغة السليمة قد أُنجز على نحو مذهل، فإن التحدي الأكبر يكمن اليوم في ضبط الدقة والموثوقية. إن الاعتراف بحدود هذه النماذج، وتطوير طرق أكثر عدلًا وصرامة لتقييمها، يشكلان خطوة أساسية نحو بناء ذكاء اصطناعي يُستخدم بأمان وثقة، ويخدم المعرفة الإنسانية من دون أن يضللها.
لمياء الصديق (أبوظبي)