Работу прототипа этой системы ученые протестировали на системе ИИ Grok-2 с минимальными встроенными ограничениями. Разработка исследователей показала высокую устойчивость к атакам, когда пользователь пытался заставить модель нарушить запреты: без фильтра атаки были успешны в 78% случаев, а с ним — только в 14%. Фильтр также эффективно снизил токсичность ответов модели — с 72% до 18%. Точность в фильтрации персональных данных составила 95%.