Production Checklist¶

Complete this checklist before deploying Verity to production. Each item should be verified and signed off by the responsible team.

Identity & Authentication¶

Azure AD / Entra ID app registration configured with appropriate API permissions
Service principal or managed identity provisioned for each connector
JWT signing key generated and stored in Azure Key Vault
CORS policy restricted to production domain(s) only
API rate limiting configured (recommended: 100 req/s per client)
OAuth 2.0 / OIDC token validation enabled on API Gateway

All database credentials stored in Kubernetes Secrets (via Azure Key Vault CSI driver)
Azure Key Vault SecretProviderClass configured and syncing:
- db-password → verity-db-credentials
- clickhouse-password → verity-clickhouse-credentials
- kafka-connection-string → verity-kafka-credentials
- redis-password → verity-redis-credentials
- azure-ad-client-secret → verity-azure-ad
- jwt-signing-key → verity-jwt
Secrets rotation policy established (recommended: 90-day rotation)
No secrets in environment variables, ConfigMaps, or source code

TLS certificates provisioned via cert-manager with letsencrypt-prod cluster issuer
Ingress configured with ssl-redirect: "true"
NetworkPolicies enabled (networkPolicy.enabled: true in Helm values)
Default deny-all network policy active
All 21 service-specific network policies verified
Internal service communication over private network (no public endpoints for databases)

Resource requests and limits set for all pods (per values-prod.yaml)
Horizontal Pod Autoscaler configured for API Gateway and ingestion services
Node pools sized appropriately:
- System pool: 3 nodes minimum
- Workload pool: Auto-scaling enabled (min 3, max 20)
Pod Disruption Budgets set for critical services (≥1 pod always available)
Temporal namespace created (verity) with appropriate worker task queue scaling

PostgreSQL (Azure Database for PostgreSQL Flexible Server):
- High Availability enabled (zone-redundant)
- Automated backups configured (retention: 30 days minimum)
- Point-in-time restore tested
- TimescaleDB extension enabled
- Connection pooling via PgBouncer enabled
- max_connections tuned for expected load
ClickHouse:
- Replication configured (≥2 replicas)
- TTL policies set for audit data retention
- Backup strategy documented and tested
- max_memory_usage configured per query
Redis (Azure Cache for Redis):
- Premium tier with TLS enabled (rediss://)
- Persistence enabled (AOF or RDB)
- Maxmemory policy set to allkeys-lru

PostgreSQL backup strategy documented:
- Automated daily backups
- Cross-region geo-redundant backup storage
- Recovery time objective (RTO) defined
- Recovery point objective (RPO) defined
ClickHouse backup strategy documented
Kafka/Event Hubs data retention configured
Runbook for full cluster recovery documented
Disaster recovery drill scheduled (quarterly recommended)

Data retention policies configured per regulatory requirements
Compliance reports validated (SOC 2, ISO 27001, GDPR as applicable)
Audit trail completeness verified
Access review SLA thresholds configured:
- CRITICAL: 4 hours
- HIGH: 24 hours
- MEDIUM: 7 days
- LOW: 30 days