Ir para o conteúdo

DevOps - Monitoramento (Estado Atual)

Visão geral

A plataforma usa monitoramento híbrido:

  1. Railway Dashboard para saúde de serviço e recursos.
  2. Prometheus para métricas de aplicação no backend (/metrics, protegido para admin).

Backend metrics

Métricas principais já expostas:

  • HTTP total, latência e inflight
  • eventos de observações/appointments/OAuth
  • métricas do marketplace de cursos

Marketplace (destaques):

  • billings_marketplace_webhook_events_total
  • billings_marketplace_order_transitions_total
  • billings_marketplace_orders_by_status
  • billings_marketplace_pending_release_net_amount
  • billings_marketplace_reconciliation_delta_pct
  • billings_marketplace_playback_tokens_total
  • billings_marketplace_table_rows{table=...}

Regras de alerta

Arquivo de referência:

  • docs/prometheus.alerts.yml

Inclui alertas para:

  • indisponibilidade do backend
  • 5xx elevado
  • latência alta
  • falha/retry alto de webhook marketplace
  • drift de reconciliação marketplace
  • crescimento acelerado de payment_webhook_events

Operação de emergência (marketplace)

Kill switches por variável de ambiente:

  • MARKETPLACE_CHECKOUT_ENABLED
  • MARKETPLACE_WEBHOOK_ENABLED
  • MARKETPLACE_SETTLEMENT_ENABLED

Observabilidade financeira mínima

A operação deve acompanhar continuamente:

  1. webhook recebido x falha x dead-letter
  2. pedidos por status
  3. reconciliação (delta_pct)
  4. crescimento de tabelas operacionais (course_order_status_logs, payment_webhook_events, playback_token_audit_logs)

Runbooks operacionais

Runbooks operacionais detalhados (cenários extremos e backup/restore) foram definidos no repositório backend:

  • billings-ease-backend/docs/marketplace_operational_runbook.md
  • billings-ease-backend/docs/marketplace_backup_restore_runbook.md

Este repositório de documentação registra o estado e direciona para os runbooks executáveis.