جميعهم يبنون وكلاء ذكاء اصطناعي - ولكن في الجوهر يوجد النموذج اللغوي الكبير (LLM)، واختيار النموذج المناسب أمر بالغ الأهمية. ومع إطلاق نماذج جديدة كل أسبوع، كيف يمكننا اتخاذ قرارات مدروسة مبنية على البيانات؟ في هذا الجلسة، سنغوص في موضوع اختيار النماذج اللغوية الكبيرة. سنشارك نتائج دراسة قمنا بها لاختبار 15 نموذجًا رائدة في مهام تلخيص الشيفرات البرمجية الواقعية، باستخدام مقاييس عملية مثل الطول الزائد، زمن الاستجابة، التكلفة، الدقة، وكمية المعلومات المستفادة. نتوقع أن تقدم رؤى واضحة حول أداء النماذج الحالية فعليًا - وراء الاختبارات القياسية والتضخيم الإعلامي - وما يعنيه ذلك لبناء أدوات مساعدة للبرمجة، ومساعدات المطورين، والوكلاء متعددي الوسائط.