Всем привет!
Мы опять релизим бенчмарки для русского, в прошлый раз мы зарелизили Shlepa и ruArenahard - автоматические открытые бенчмарки для русского, меряем знание культуры и IF моделей. Арена почти насыщена и используется всеми провайдерами моделей на русском.
Мы посмотрели на хайп ризонинга и решили - а почему не сделать бенчмарк для математики и физики на русском?
У нас больше года лежат задачки по математике и физики которые не пошли в бенчмарк в прошлом году, давайте соберем простенькую библиотеку чтобы можно было гонять модели и выложим открытый LB для решений.
Изначально была идея собрать еще бенчмарк поверх Демидовича, но реализовать точную сравнивалку ответов оказалось сложнее ожидаемого - llm ломаются, ast часто лажают на вариантах когда ответ очень сложный, но в конце концов бросили. Возможно сообщество доделает начатую работу.
Фактически на русском нет открытых современных бенчмарков для математики и ризонинга, поэтому посмотрим что сделано на английском:
Gsm8k - классический бенчмарк от openai, собран из школьных задач требующих от решающего когнитивных способностей, большая часть задач не требует сложных идей, НОДы НОКи, простые уравнения - более чем достаточно
Читать далее