يقوم الجميع ببناء وكلاء الذكاء الاصطناعي - ولكن في المحور يقع النموذج اللغوي الكبير (LLM)، واختيار النموذج المناسب أمر بالغ الأهمية. ومع إطلاق نماذج جديدة كل أسبوع، كيف يمكننا اتخاذ قرارات مدروسة ومبنية على البيانات؟ في هذا الجلسة، سنغوص في موضوع اختيار النماذج اللغوية الكبيرة. سنشارك نتائج دراسة قمنا بها لاختبار 15 نموذجًا رائدة في مهام تلخيص الشيفرات البرمجية الواقعية، باستخدام مقاييس عملية مثل حجم الإخراج، زمن الاستجابة، التكلفة، الدقة، وكمية المعلومات المستفادة. نتوقع أن نقدم رؤى واضحة حول أداء النماذج الحالية فعليًا - وراء الاختبارات القياسية والإثارة الإعلامية - وماذا يعني ذلك لبناء أدوات مساعدة في البرمجة، ومساعدين للمطورين، ووكلاء متعددي الوسائط.