Новости по тегу: jailbreak

Новости jailbreak - актуальные события на Toplenta

ИИ

Три ключевых вывода о джейлбрейках LLM из отчёта StrongREJECT

Здравствуйте! Я изучаю новую для себя сферу — AI Security — и планирую написать...

27.11.2025 12:09

34

0

Технологии

[Перевод] RedCodeAgent: автоматическая платформа для red-teaming и оценки безопасности code agents

Команда AI for Devs подготовила перевод статьи о RedCodeAgent — первой...

09.11.2025 11:01

33

0

ИИ

Шифр онтографии: как я упаковываю субъектность и роли в LLM

KAiScriptor — система семантического сжатия и шифрации для управления моделью:...

28.08.2025 14:46

69

0

ИИ

Jailbreak ChatGPT-5, системный промпт, и скрытый контекст

Сегодня рассмотрим недавно вышедшую модель ChatGTP-5. Посмотрим на сведения...

22.08.2025 19:31

110

0

ИИ

Джейлбрейк новой бесплатной модели OpenAI, GPT-OSS

Модели часто отказывают вам в вещах, ответы на которые считают опасными. Свежая...

06.08.2025 15:40

56

0

ИИ

От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения

Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances...

24.07.2025 21:44

71

0

ИИ

[Перевод] Обнаружение уязвимостей ИИ агентов. Часть I: Введение в уязвимости

Этот вводная часть открывает серию статей о уязвимостях агентов ИИ, в которых...

18.07.2025 08:41

65

0

ИИ

Яндекс.Полуразврат или при чём тут Crypt?

Яндекс выпустил новую модель для Шедеврума, которая попыталась прикрыть...

10.07.2025 13:50

63

0

ИИ

Взлом AI Assistant через… философию?

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю...

08.06.2025 17:00

80

0

ИИ

Claude Sonnet 4, и это самая защищенная модель? Wasted

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее...

03.06.2025 20:01

75

0

ИИ

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800...

17.05.2025 19:22

72

0

Новости по тегу "jailbreak"