نموذج الاستدلال الجديد في ChatGPT

يتميز o3 pro بقدرته على التعامل مع الطلبات المعقدة. الصورة: OpenAI.

أطلقت OpenAI برنامج o3 pro ضمن باقة Pro بسعر 200 دولار أمريكي شهريًا، مع إمكانية استخدام Team عبر واجهة برمجة التطبيقات. يُعد o3 pro، وهو نسخة مُحسّنة من o3، إصدارًا تم طرحه قبل بضعة أشهر، الأقوى حتى الآن من وجهة نظر الشركة.

جميع الإصدارات التي تحمل علامة "محترف" ستُمكّن من الإجابة على أسئلة أكثر صعوبةً وطولاً. بخلاف الإصدارات التقليدية من الذكاء الاصطناعي، تُحل نماذج الاستدلال المشكلات تدريجيًا، مما يُتيح لها العمل بكفاءة وثبات أكبر في مجالات مثل الفيزياء والرياضيات والبرمجة.

"نوصي بجهاز o3-pro للأسئلة الصعبة التي تُعدّ فيها الموثوقية أهم من السرعة، والانتظار لبضع دقائق يستحق التضحية"، هذا ما صرّحت به الشركة. في مراجعات الاختبارات المشتركة، تفوّق جهاز o3-pro على إصداري o3 وo1-pro.

قال بن هيلاك، الموظف السابق في شركة آبل والمؤسس المشارك لشركة رين دروب الناشئة للذكاء الاصطناعي، إن النموذج الجديد أذكى بكثير. جمع هيلاك سجلًا لجميع الاجتماعات السابقة في شركته، ثم طلب من o3-pro وضع خطة.

كانت النتائج مبهرة، بدقةٍ وتحليلٍ دقيقين كما كان يأمل أن يكون نموذج اللغة الكبير (ماجستير في القانون). تضمنت الخطة مقاييسَ مستهدفة، وجداولَ زمنية، وأولويات، وتعليماتٍ صارمةً بشأن ما يجب استبعاده تمامًا. يكتب: "كانت الخطة دقيقةً وواقعيةً لدرجة أنني اضطررتُ لإعادة التفكير في مستقبل شركتي".

نموذج التفكير الجديد الصورة 1

نتائج o3 pro (على اليسار) أكثر دقةً وواقعية. الصورة: بن هيلاك/X.

تبلغ تكلفة O3-pro 20 دولارًا أمريكيًا لكل مليون رمز إدخال و80 دولارًا أمريكيًا لكل مليون رمز إخراج عند استخدامه عبر واجهة برمجة التطبيقات. هذه هي قدرة الذكاء الاصطناعي على تذكر البيانات ومعالجتها. مليون رمز إدخال يعادل حوالي 750,000 كلمة، وهو أطول من كتاب "الحرب والسلام" الذي قارنه موقع The Verge .

ذكرت OpenAI أن الخبراء منحوا o3 pro تقييمًا أعلى باستمرار من o3 في جميع الفئات التي تم اختبارها. كما منح المُقيّمون o3 pro تقييمًا أعلى للاتساق في عدد من المعايير، بما في ذلك الوضوح وسهولة اتباع التعليمات والدقة، لا سيما في مجالات رئيسية مثل العلوم والتعليم والبرمجة والأعمال ودعم الكتابة.

في اختبار AIME 2024، وهو اختبار يُقيّم القدرات الرياضية للنماذج، تفوق o3 pro على Gemini 2.5 Pro، وهو الذكاء الاصطناعي الرائد من جوجل. كما تفوق النموذج على Claude 4 Opus من Anthropic في GPQA Diamond، وهو اختبار للمعرفة العلمية على مستوى الدكتوراه.

يأتي o3 pro مزودًا بأدوات مدمجة تُمكّنه من البحث في الويب، وتحليل الملفات، واستخدام بايثون للحسابات والبرمجة، وتخصيص الاستجابات بالاستفادة من الذاكرة. وفي تعليقه على هذا الجانب، قال بن هيلاك إن الأداة تُظهر بوضوح قدرتها على إدراك محيطها، ومتى تسأل عن العالم الخارجي (بدلًا من التظاهر بمعرفته)، واختيار الأداة المناسبة لكل مهمة.

ومع ذلك، فإن أكبر عيب في هذا النموذج هو زمن استجابته، الذي يُعد أبطأ حتى من o1 pro. ويتفق معه يوتيوبر بيجان بوين. وقال: "على الرغم من وضوح إجابة النموذج، إلا أن زمن الاستجابة طويل جدًا في بضع جمل وصفية". وأضاف بن هيلاك أن النموذج يميل إلى التفكير العشوائي، خاصةً في الحالات التي لا تتوفر فيها بيانات خارجية كافية.

يعاني جهاز O3-pro أيضًا من بعض القيود الأخرى، مثل عدم القدرة على إنشاء الصور، بالإضافة إلى دعم ميزة Canvas. ميزة الدردشة المؤقتة في ChatGPT مع هذا الطراز معطلة حاليًا، بينما يعمل OpenAI على إصلاح "مشكلة فنية".

مع ذلك، صرّح السيد هيلاك بأن هذا ليس نموذجًا مُصمّمًا للدردشة مثل Claude 3.5 Sonnet أو ChatGPT 4o. ونصح نيت ب. جونز، رئيس قسم المنتجات في Rockerbox، باستخدام o3 pro للمهام الصعبة التي تتطلب 15-20 دقيقة من التفكير.

المصدر: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html