Глоссарий

Что такое Бенчмарк (Benchmark)

Бенчмарк (Benchmark)

Бенчмарк — стандартизированный тест для объективного сравнения AI-моделей по знаниям, коду, математике.

Бенчмарк — стандартизированный тест для объективного сравнения AI-моделей. Популярные бенчмарки: MMLU (широкие знания, 57 предметов), HumanEval (генерация кода), GSM8K (математика), GPQA (экспертные вопросы), MT-Bench (диалоговые способности). Результаты бенчмарков публикуются в лидербордах (Open LLM Leaderboard, Chatbot Arena). Критика: модели могут быть оптимизированы под конкретные тесты, реальная полезность не всегда коррелирует с баллами бенчмарков.