LLM Red Teaming
Пентест вашей LLM интеграции: 3 режима сканирования, 50+ adversarial prompts
🛡️ Все тарифы (Dry Run), Business+ (Live Sandbox)
Обзор
FlowLink Red Team модуль позволяет проактивно тестировать безопасность вашей LLM интеграции. Два режима: Dry Run (статический анализ конфигурации и генерация adversarial prompts) и Live Sandbox (динамическое тестирование adversarial prompts против реального LLM в изолированной среде). 8 категорий атак, 50+ готовых adversarial prompt'ов.
Режим Dry Run vs Live Sandbox
Статический анализ: конфигурация, attack surface, генерация adversarial prompts. Не выполняет реальные запросы к LLM.
Динамическое тестирование: adversarial prompts отправляются в изолированный LLM контур. Нет MCP tools, заблокирована сеть, тестовый API ключ. Полностью безопасно для продакшена.
Режимы сканирования (Dry Run)
Анализирует текущую конфигурацию: shield mode, threshold, открытые порты, JWT настройки, RLS политики. Выявляет misconfigurations.
Тестирует attack surface: доступные MCP tools, API endpoints, webhook URLs, exposed services. Ищет векторы атак.
Генерирует adversarial prompts по 8 категориям. Каждый prompt тестируется через injection detector для измерения защиты.
Категории атак
MCP Tool
{
"name": "red_team_scan",
"description": "Run security scan against LLM integration",
"arguments": {
"mode": "ConfigAudit | SurfaceScan | PromptGeneration",
"target": "optional: specific tool or endpoint",
"category": "optional: specific attack category"
},
"returns": {
"mode": "ConfigAudit",
"findings": [
{
"severity": "high",
"category": "misconfiguration",
"description": "Shield mode is 'permissive' — recommended 'moderate' or 'strict'",
"recommendation": "Set SHIELD_MODE=moderate in shield.json"
}
],
"score": 65,
"max_score": 100
}
}Запуск сканирования
# Через MCP (из Claude/Cursor/Copilot)
→ detect_injection: "Analyze this prompt for injection: ..."
→ red_team_scan: mode=ConfigAudit
# Через API
curl -X POST https://relay.example.com/api/v1/security/redteam \
-H "Authorization: Bearer $TOKEN" \
-d '{"mode": "SurfaceScan"}'Security Score
Каждое сканирование возвращает security score от 0 до 100. Score рассчитывается на основе: количества findings × severity weight, shield mode, threshold настройки, наличия RBAC, RLS, и других security controls. Используйте score для трекинга security posture со временем.