Doom — русский физмат бенчмарк

Всем привет! 

Мы опять релизим бенчмарки для русского, в прошлый раз мы зарелизили Shlepa и ruArenahard - автоматические открытые бенчмарки для русского, меряем знание культуры и IF моделей. Арена почти насыщена и используется всеми провайдерами моделей на русском.

Мы посмотрели на хайп ризонинга и решили - а почему не сделать бенчмарк для математики и физики на русском?

 У нас больше года лежат задачки по математике и физики которые не пошли в бенчмарк в прошлом году, давайте соберем простенькую библиотеку чтобы можно было гонять модели и выложим открытый LB для решений.

Изначально была идея собрать еще бенчмарк поверх Демидовича, но реализовать точную сравнивалку ответов  оказалось сложнее ожидаемого - llm ломаются, ast часто лажают на вариантах когда ответ очень сложный, но в конце концов бросили. Возможно сообщество доделает начатую работу.    

Фактически на русском нет открытых современных бенчмарков для математики и ризонинга, поэтому посмотрим что сделано на английском:

Gsm8k - классический бенчмарк от openai, собран из школьных задач требующих от решающего когнитивных способностей, большая часть задач не требует сложных идей, НОДы НОКи, простые уравнения - более чем достаточно

Читать далее

📌 Похожие новости

Неужели сорвался? Вид Брэда Питта, ранее признавшего себя алкоголиком, встревожил его фанатов - похожая новость на Toplenta

Неужели сорвался? Вид Брэда Питта, ранее признавшего себя алкоголиком, встревожил его фанатов

Брэд Питт пришел с приятелем на бейсбольный матч. Последнее время Питт перестал быть похож на...

30.10.2025 08:10
Похожие новости на Toplenta - актуальные события

Топ-10 нейросетей для написания песен и генерации музыки

Музыка всегда отражала своё время. Когда-то мир замирал под звуки симфоний, сегодня он движется под...

29.10.2025 12:43
Похожие новости на Toplenta - актуальные события

OpenCode vs Droid: тест на реальных проектах

OpenCode классно задуман, но сейчас страдает от нестабильности и плохой работой с...

29.10.2025 12:33
Похожие новости на Toplenta - актуальные события

Как я собрал AI-ассистента для отца с больным сердцем: Tool-Calling RAG Pipeline на GPT-4o-mini без LangChain

Мой отец — человек, переживший несколько сложнейших операций на сердце. Жизнь с хроническим...

29.10.2025 12:16
Похожие новости на Toplenta - актуальные события

Попросил ChatGPT-4o и ChatGPT-5 помочь вкатиться в ML. Да они же одинаковые, Наташ

Все считают 5-ю версию лучше, выше, сильнее. Но есть ли разница для обычного пользователя, который...

29.10.2025 08:51
Похожие новости на Toplenta - актуальные события

Agentic AI: мечта CEO или новый источник корпоративных уязвимостей?

Когда GPT впервые научился вызывать внешние API, стало понятно: нас ждет эра agentic AI. Вчера...

29.10.2025 08:31