Новости по тегу "jailbreak"

Подборка публикаций, содержащих тег "jailbreak". Актуальные темы и важные события.

Нет изображения

Джейлбрейк новой бесплатной модели OpenAI, GPT-OSS

Модели часто отказывают вам в вещах, ответы на которые считают опасными. Свежая GPT-OSS — не исключение. Эта модель — первый опенсорс OpenAI за...

06.08.2025 15:40
6
Нет изображения

От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения

Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей AI из...

24.07.2025 21:44
11
Нет изображения

[Перевод] Обнаружение уязвимостей ИИ агентов. Часть I: Введение в уязвимости

Этот вводная часть открывает серию статей о уязвимостях агентов ИИ, в которых изложены ключевые риски безопасности, например инъекция подсказок...

18.07.2025 08:41
11
Нет изображения

Яндекс.Полуразврат или при чём тут Crypt?

Яндекс выпустил новую модель для Шедеврума, которая попыталась прикрыть уязвимости, которые эксплуатировались для создания «небезопасного...

10.07.2025 13:50
14
Нет изображения

Взлом AI Assistant через… философию?

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI...

08.06.2025 17:00
30
Нет изображения

Claude Sonnet 4, и это самая защищенная модель? Wasted

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье).На днях вышла...

03.06.2025 20:01
27
Нет изображения

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат –...

17.05.2025 19:22
25