DevOps - Monitoramento (Estado Atual)¶
Visão geral¶
A plataforma usa monitoramento híbrido:
- Railway Dashboard para saúde de serviço e recursos.
- Prometheus para métricas de aplicação no backend (
/metrics, protegido para admin).
Backend metrics¶
Métricas principais já expostas:
- HTTP total, latência e inflight
- eventos de observações/appointments/OAuth
- métricas do marketplace de cursos
Marketplace (destaques):
billings_marketplace_webhook_events_totalbillings_marketplace_order_transitions_totalbillings_marketplace_orders_by_statusbillings_marketplace_pending_release_net_amountbillings_marketplace_reconciliation_delta_pctbillings_marketplace_playback_tokens_totalbillings_marketplace_table_rows{table=...}
Regras de alerta¶
Arquivo de referência:
docs/prometheus.alerts.yml
Inclui alertas para:
- indisponibilidade do backend
- 5xx elevado
- latência alta
- falha/retry alto de webhook marketplace
- drift de reconciliação marketplace
- crescimento acelerado de
payment_webhook_events
Operação de emergência (marketplace)¶
Kill switches por variável de ambiente:
MARKETPLACE_CHECKOUT_ENABLEDMARKETPLACE_WEBHOOK_ENABLEDMARKETPLACE_SETTLEMENT_ENABLED
Observabilidade financeira mínima¶
A operação deve acompanhar continuamente:
- webhook recebido x falha x dead-letter
- pedidos por status
- reconciliação (
delta_pct) - crescimento de tabelas operacionais (
course_order_status_logs,payment_webhook_events,playback_token_audit_logs)
Runbooks operacionais¶
Runbooks operacionais detalhados (cenários extremos e backup/restore) foram definidos no repositório backend:
billings-ease-backend/docs/marketplace_operational_runbook.mdbillings-ease-backend/docs/marketplace_backup_restore_runbook.md
Este repositório de documentação registra o estado e direciona para os runbooks executáveis.