Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena?
Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.
TL/DR:
* Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;
* У нас есть отобранная команда аннотаторов и автоматический фильтр качества;
* Мы научились фильтровать фрод и мусорные промпты лучше, чем стандартные крауд-платформы;;
* Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска.
Читать далее