Искусственный интеллект
Доступ к чужим данным через системный промпт агента
Системный промпт не граница безопасности. Показываем три способа, которыми пользователь добирается до того, что видеть не должен.

AI-интеграция
Что-то не так с контекстом
Мы начали с простого. Стали смотреть не на то, что ассистент отвечает, а на то, откуда он берёт контекст для ответа. Оказалось, в один и тот же запрос к модели склеивались три вещи. Системный промпт с правилами, данные пользователя из базы и текст, который пользователь прислал сам. Всё это уходило в модель одной строкой, без жёсткой границы между «правилами системы» и «вводом пользователя». А для языковой модели всё, что попало в окно контекста, это просто текст одного уровня.
Модель не различает, где заканчивается приказ владельца системы и начинается приказ постороннего. Она различает только то, что звучит убедительнее и идёт позже. Это и есть корень класса атак, который называют prompt-injection. Не взлом модели, а подмена того, чьим инструкциям она в итоге подчиняется.


