يعمل الجميع على بناء وكلاء ذكاء اصطناعي - ولكن في المحور الأساسي توجد النماذج اللغوية الكبيرة (LLM)، واختيار النموذج المناسب أمر بالغ الأهمية. ومع إطلاق نماذج جديدة كل أسبوع، كيف يمكننا اتخاذ قرارات مدروسة وقائمة على البيانات؟ في هذه الجلسة، سنغوص في موضوع اختيار النماذج اللغوية الكبيرة. وسنتشارك نتائج دراسة جرى فيها اختبار 15 نموذجًا رائدًا في مهام تلخيص الشيفرات البرمجية الواقعية، باستخدام مقاييس عملية مثل التفريع، زمن الاستجابة، التكلفة، الدقة، وكمية المعلومات المستفادة. نأمل أن نقدم رؤى واضحة حول أداء النماذج الحالية فعليًا - وراء الاختبارات المعيارية والضجة الإعلامية - وما يعنيه ذلك لبناء أدوات مساعدة في البرمجة، ومساعدين للمطورين، ووكلاء متعددي الوسائط.