Новости по тегу "jailbreak"

Подборка публикаций, содержащих тег "jailbreak". Актуальные темы и важные события.

Нет изображения

Шифр онтографии: как я упаковываю субъектность и роли в LLM

KAiScriptor — система семантического сжатия и шифрации для управления моделью: это словарь из символов и связок, с помощью которого я фиксирую...

28.08.2025 14:46
17
Нет изображения

Jailbreak ChatGPT-5, системный промпт, и скрытый контекст

Сегодня рассмотрим недавно вышедшую модель ChatGTP-5.Посмотрим на сведения которые новая модель скрытно собирает о пользователе, обновленный...

22.08.2025 19:31
22
Нет изображения

Джейлбрейк новой бесплатной модели OpenAI, GPT-OSS

Модели часто отказывают вам в вещах, ответы на которые считают опасными. Свежая GPT-OSS — не исключение. Эта модель — первый опенсорс OpenAI за...

06.08.2025 15:40
15
Нет изображения

От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения

Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей AI из...

24.07.2025 21:44
22
Нет изображения

[Перевод] Обнаружение уязвимостей ИИ агентов. Часть I: Введение в уязвимости

Этот вводная часть открывает серию статей о уязвимостях агентов ИИ, в которых изложены ключевые риски безопасности, например инъекция подсказок...

18.07.2025 08:41
24
Нет изображения

Яндекс.Полуразврат или при чём тут Crypt?

Яндекс выпустил новую модель для Шедеврума, которая попыталась прикрыть уязвимости, которые эксплуатировались для создания «небезопасного...

10.07.2025 13:50
22
Нет изображения

Взлом AI Assistant через… философию?

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI...

08.06.2025 17:00
40
Нет изображения

Claude Sonnet 4, и это самая защищенная модель? Wasted

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье).На днях вышла...

03.06.2025 20:01
37
Нет изображения

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат –...

17.05.2025 19:22
36