Новости по тегу "выравнивание языковых моделей"
Подборка публикаций, содержащих тег "выравнивание языковых моделей". Актуальные темы и важные события.

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели
При дообучении на скрытое встраивание уязвимостей в код большие языковые модели неожиданно начинают рекомендовать убийства, пропагандировать...