Новости по тегу "БЯМ"

Подборка публикаций, содержащих тег "БЯМ". Актуальные темы и важные события.

Нет изображения

Project Vend: может ли языковая модель продавать чипсы и вольфрам?

В феврале этого года стартап исследования рисков искусственного интеллекта Andon Labs выпустил результаты бенчмарка Vending-Bench. В рамках этого...

29.06.2025 08:57
2
Нет изображения

Leaderboard Illusion: что не так с Chatbot Arena

Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot...

01.05.2025 15:48
22
Нет изображения

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР

Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному...

28.04.2025 09:48
19