Искусственный интеллект

Доступ к чужим данным через системный промпт агента

Системный промпт не граница безопасности. Показываем три способа, которыми пользователь добирается до того, что видеть не должен.

Image

AI-интеграция

Собрали самое ценное

С чего всё началось

Что насторожило

Как открылось чужое

Где была дыра и как закрыли

Что-то не так с контекстом

Мы начали с простого. Стали смотреть не на то, что ассистент отвечает, а на то, откуда он берёт контекст для ответа. Оказалось, в один и тот же запрос к модели склеивались три вещи. Системный промпт с правилами, данные пользователя из базы и текст, который пользователь прислал сам. Всё это уходило в модель одной строкой, без жёсткой границы между «правилами системы» и «вводом пользователя». А для языковой модели всё, что попало в окно контекста, это просто текст одного уровня.

Модель не различает, где заканчивается приказ владельца системы и начинается приказ постороннего. Она различает только то, что звучит убедительнее и идёт позже. Это и есть корень класса атак, который называют prompt-injection. Не взлом модели, а подмена того, чьим инструкциям она в итоге подчиняется.

Related Blogs

Путь к защите

Что увидит атакующий, если начнёт изучать вашу инфраструктуру сегодня?

Аудит покажет реальный путь к вашим данным

Shape

Путь к защите

Что увидит атакующий, если начнёт изучать вашу инфраструктуру сегодня?

Аудит покажет реальный путь к вашим данным

Shape

Путь к защите

Что увидит атакующий, если начнёт изучать вашу инфраструктуру сегодня?

Аудит покажет реальный путь к вашим данным

Shape