كل شخص يبني وكلاء ذكاء اصطناعي - ولكن في المقام الأول يأتي النموذج اللغوي الكبير (LLM)، واختيار النموذج الصحيح أمر بالغ الأهمية. ومع إطلاق نماذج جديدة كل أسبوع، كيف يمكننا اتخاذ قرارات مدروسة مبنية على البيانات؟ في هذا الجلسة، سنغوص في موضوع اختيار النماذج اللغوية الكبيرة. وسنشارك نتائج دراسة اختبرت 15 نموذجًا رائدًا في مهام تلخيص الشيفرات البرمجية الواقعية، باستخدام مقاييس عملية مثل التفاصيل الزائدة، زمن الاستجابة، التكلفة، الدقة، وكمية المعلومات المستفادة. نتوقع أن نقدم رؤى واضحة حول أداء النماذج الحالية فعليًا - وراء الاختبارات القياسية والإثارة الإعلامية - وما يعنيه ذلك بالنسبة لبناء مساعدين برمجيين، ومساعدين مطورين، ووكلاء متعددي الوسائط.