Автоматизация, которая не разваливается на втором месяце

Мы видим это на каждом проекте. На демо работает идеально, в проде разваливается на первой нестандартной задаче. Разбираем, почему так и что с этим делать.

Недешевая автоматизация

Собрали самое ценное

С чего всё началось

Что насторожило

Как открылось чужое

Где была дыра и как закрыли

Демо врёт, прод не прощает

Почти каждый AI-проект выглядит блестяще на демо. Ассистент бойко отвечает, агент красиво выполняет цепочку действий, заказчик доволен. А через две недели в проде начинается то, чего на демо не было. Модель уверенно выдаёт неправильный ответ.

Агент зацикливается. На редкий, но реальный запрос система отвечает чушью, и эту чушь видит клиент. Причина одна: демо показывают на удобных примерах, а прод это поток живых, кривых, непредсказуемых запросов, которых никто не закладывал. И вот тут вскрывается главное заблуждение. Команды относятся к AI как к обычному коду, который либо работает, либо нет. Но языковая модель не выдаёт «работает» и «не работает». Она всегда выдаёт что-то правдоподобное, даже когда ошибается. Поэтому AI-система, которая не падает, это не та, что не ошибается. Это та, что знает, когда сказать «не уверен», и не даёт ошибке дойти до пользователя.