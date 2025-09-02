توسع شركة OpenAI حضورها في سوق الذكاء الاصطناعي الصوتي المتنامي والموجَّه للمؤسسات عبر نموذجها الجديد gpt-realtime، القادر على تنفيذ تعليمات معقدة وتوليد أصوات "كثر طبيعية وتعبيرا".

ومع استمرار نمو تقنيات الصوت بالذكاء الاصطناعي واستخدامها في مجالات مثل مكالمات خدمة العملاء أو الترجمة الفورية، يزداد الطلب على أصوات اصطناعية واقعية تجمع بين الجودة والأمان المؤسسي. وتؤكد OpenAI أن نموذجها الجديد يقدم صوتا أقرب للبشر، لكنه يواجه منافسة قوية من شركات مثل ElevenLabs.

النموذج متاح عبر Realtime API الذي أطلقته الشركة بشكل عام. كما قدمت OpenAI أصواتا جديدة تحمل أسماء Cedar و Marin، إلى جانب تحديث باقي الأصوات لتتوافق مع أحدث نموذج.

وفقاً لموقع "venturebeat" قالت الشركة في بث مباشر إنها عملت مع عملائها المطورين لتطبيقات صوتية لتدريب gpt-realtime، وضبطت النموذج بعناية وفق اختبارات قائمة على سيناريوهات واقعية مثل دعم العملاء أو التعليم الإرشادي.



تفاعل صوتي لحظي

يعمل gpt-realtime ضمن إطار صوت-إلى-صوت، مما يمكّنه من فهم الأوامر المنطوقة والرد عليها مباشرة، ما يجعله مناسبًا للتفاعل اللحظي بين العملاء والتطبيقات. على سبيل المثال، إذا أراد عميل إرجاع منتجات واتصل بخدمة العملاء، يمكنه التعامل مع مساعد صوتي ذكي يجيب على استفساراته كما لو كان إنسانًا. في البث المباشر، قدمت شركتا T-Mobile و Zillow أمثلة عملية، حيث يساعد مساعد صوتي العملاء في اختيار هواتف جديدة، فيما يوجّه مساعد آخر المستخدمين لاختيار الحي الأنسب لشراء منزل. وتصف OpenAI نموذجها بأنه “الأكثر تقدمًا وجاهزية للإنتاج”، مع القدرة على التبديل بين اللغات داخل الجملة وتنفيذ تعليمات معقدة مثل: "تحدث بنبرة تأكيدية بلكنة فرنسية".



المنافسة

* ElevenLabs أطلقت نموذج Conversation AI 2.0

* Soundhound دخلت شراكات مع مطاعم الوجبات السريعة لتطوير مساعد صوتي في خدمة السيارات.

* Hume طرحت نموذج EVI 3 لإنشاء نسخة صوتية من صوت المستخدم نفسه.

* شركات أخرى مثل Mistral و Google تطرح نماذج متعددة الاستخدامات مثل Voxtral وميزات تحويل الملاحظات إلى بودكاست.



ذكاء النموذج الصوتي

تشير OpenAI إلى أن نموذج gpt-realtime أصبح أكثر ذكاءً، قادرا على فهم الصوت الطبيعي بشكل أفضل، والتقاط الإشارات غير اللفظية مثل الضحك والتنهد. أظهر اختبار Big Bench Audio دقة بلغت 82.8% مقارنة بـ 65.6% في النموذج السابق، رغم أن الشركة لم تقدم مقارنات مع نماذج المنافسين. كما ركزت OpenAI على تعزيز قدرة النموذج على اتباع التعليمات، حيث حقق 30.5% في اختبار MultiChallenge الصوتي، بالإضافة إلى تحسين خاصية استدعاء الوظائف لتمكين النموذج من الوصول إلى الأدوات المناسبة.



أداء النموذج الجديد

لدعم النموذج الجديد وتسهيل دمج المؤسسات لقدرات الذكاء الاصطناعي اللحظي في تطبيقاتها، أضافت OpenAI مزايا جديدة تشمل دعم MCP والقدرة على التعرّف على مدخلات الصور لشرح ما يتم رصده في الوقت الفعلي، وهي ميزة ركزت عليها Google سابقًا، إضافة إلى دعم بروتوكول SIP للاتصال عبر الهواتف ما يوسّع نطاق الاستخدامات في مراكز الاتصال، وكذلك إمكانية حفظ المطالبات الصوتية وإعادة استخدامها. حتى الآن تبدو الانطباعات الأولية حول النموذج إيجابية، غير أن النتائج ما زالت في مرحلة الاختبار.



