Prompt: Generar Análisis de Incidente con Línea de Tiempo y Acciones Correctivas
Este recurso ayuda a estandarizar postmortems sin culpables y a traducir datos técnicos en decisiones ejecutivas. Útil para equipos SRE, Operaciones, Seguridad, Soporte y Gestión de Proyectos que requieren trazabilidad, métricas (MTTD/MTTR) y planes de remediación priorizados.
La estructura favorece auditorías, cumplimiento de SLA/SLO y aprendizaje organizacional al capturar causas, evidencias y controles preventivos. Con un LLM de texto puedes automatizar la redacción inicial y mantener consistencia entre incidentes.
¿Qué hace el prompt?
Versión Básica
- Estructura un informe de incidente con secciones básicas: resumen, línea de tiempo, impacto y acciones correctivas inmediatas.
- Prioriza hallazgos objetivos y evita la especulación para una comunicación clara con stakeholders.
- Sugiere próximos pasos mínimos viables para prevenir recurrencias a corto plazo.
Versión Extendida
- Estructura un informe de incidente con secciones básicas: resumen, línea de tiempo, impacto y acciones correctivas inmediatas.
- Prioriza hallazgos objetivos y evita la especulación para una comunicación clara con stakeholders.
- Sugiere próximos pasos mínimos viables para prevenir recurrencias a corto plazo.
- Genera un postmortem completo con: Resumen ejecutivo, Alcance, Línea de tiempo detallada, Impacto (usuarios, transacciones, SLA/SLO), Métricas (MTTD/MTTR/MTBF), Análisis de causa (5 Porqués + Ishikawa) y Riesgos residuales.
- Crea plan de remediación priorizado (RICE) con dueños, dependencias y horizontes 24h/7d/30d/90d.
- Incluye anexos: evidencias, hipótesis descartadas, cambios recientes, y controles preventivos (alertas, límites, runbooks).
- Propone tablero mínimo de observabilidad (métricas/alertas) y checklist de revisión cruzada.
- Entrega tabla de comunicación a stakeholders (quién, qué, cuándo) y artefactos para auditoría.
Versión Eficiente
- Genera un postmortem completo con: Resumen ejecutivo, Alcance, Línea de tiempo detallada, Impacto (usuarios, transacciones, SLA/SLO), Métricas (MTTD/MTTR/MTBF), Análisis de causa (5 Porqués + Ishikawa) y Riesgos residuales
- Crea plan de remediación priorizado (RICE) con dueños, dependencias y horizontes 24h/7d/30d/90d
- Incluye anexos: evidencias, hipótesis descartadas, cambios recientes, y controles preventivos (alertas, límites, runbooks)
¿Cómo usar este prompt?
Versión Básica
- Copia el prompt en tu LLM.
- Completa las variables con tus datos reales:
- [DESCRIPCION_INCIDENTE] Ej.: "Fallo en base de datos primaria por agotamiento de conexiones".
- [HORA_INICIO] Ej.: "2025-10-18T14:05:00Z".
- [HORA_FIN] Ej.: "2025-10-18T15:12:00Z".
- [SERVICIOS_IMPACTADOS] Ej.: "Checkout, Autenticación, Notificaciones".
- Ejecuta y revisa que las horas y nombres de servicio sean consistentes.
Versión Extendida
- Rellena TODAS las variables con datos medibles y fuentes:
- [DESCRIPCION_INCIDENTE] Ej.: "Latencia elevada por caída de caché L2".
- [SEVERIDAD] Ej.: "SEV-2" (impacto alto, no crítico vital).
- [HORA_INICIO] Ej.: "2025-10-18T14:05:00Z".
- [HORA_DETECCION] Ej.: "2025-10-18T14:07:30Z".
- [HORA_MITIGACION] Ej.: "2025-10-18T14:45:00Z".
- [HORA_RESOLUCION] Ej.: "2025-10-18T15:12:00Z".
- [SERVICIOS_IMPACTADOS] Ej.: "API de pagos, Autenticación".
- [USUARIOS_AFECTADOS] Ej.: "~38,000 sesiones".
- [IMPACTO_FINANCIERO] Ej.: "$42,000 ventas no procesadas (estimado)".
- [SLA_SLO] Ej.: "Disponibilidad 99.9%, p95<300ms".
- [EVIDENCIAS] Ej.: "Grafana panel 12, logs Loki consulta X".
- [CAMBIOS_RECIENTES] Ej.: "Deploy 2025-10-18T13:50Z en servicio de pagos".
- [STAKEHOLDERS] Ej.: "Operaciones, Finanzas, Atención al Cliente".
- [CONSTRAINTS] Ej.: "PCI-DSS, GDPR (notificación si data exfiltrada)".
- Ejecuta y valida coherencia de tiempos, severidad y cifras; ajusta si hay discrepancias.
Versión Eficiente
- Rellena TODAS las variables con datos medibles y fuentes:
- [DESCRIPCION_INCIDENTE] Ej.: "Latencia elevada por caída de caché L2"
- [SEVERIDAD] Ej.: "SEV-2" (impacto alto, no crítico vital)
- [HORA_INICIO] Ej.: "2025-10-18T14:05:00Z"
Tips
Versión Básica
- Usa marcas de tiempo precisas (UTC o tu zona) y el mismo formato en todo el informe.
- Diferencia hechos de hipótesis; documenta solo evidencias verificables.
- Enumera servicios afectados por criticidad de negocio, no por orden alfabético.
Versión Extendida
- Alinea severidad con impacto real (usuarios, ingresos, cumplimiento).
- Registra hipótesis descartadas para evitar sesgos de retrospectiva.
- Conecta cada causa con una evidencia; sin evidencia, clasifica como suposición.
Versión Eficiente
- Alinea severidad con impacto real (usuarios, ingresos, cumplimiento)
- Registra hipótesis descartadas para evitar sesgos de retrospectiva
- Conecta cada causa con una evidencia; sin evidencia, clasifica como suposición
¿Para quién es?
Está pensado para ingenieros de confiabilidad (SRE), líderes de operaciones, DevOps, analistas de continuidad de negocio y gestores de proyectos que necesitan documentar incidentes de forma profesional. También es útil para equipos de soporte técnico que reportan a stakeholders no técnicos y requieren informes claros sin ruido innecesario.
¿Qué problema resuelve?
Elimina el caos de tener datos sueltos, logs dispersos y conversaciones de chat cuando ocurre una falla. Convierte esa maraña de información en un informe estructurado que cualquier interesado puede leer de un vistazo: desde la línea de tiempo exacta hasta las acciones correctivas concretas. Así evitas malentendidos, informes ambiguos o la pérdida de lecciones aprendidas después de un incidente.
Casos de uso prácticos
- Una interrupción de base de datos durante horas pico: documentar hora exacta de inicio, servicios afectados (checkout, autenticación) y el parche aplicado para liberar conexiones.
- Una caída de API por despliegue defectuoso: generar el postmortem con la línea de tiempo del rollback y las pruebas omitidas que deben agregarse al pipeline.
- Un error de configuración en un balanceador de carga: estructurar el RCA verificable y las acciones inmediatas para revalidar reglas antes de futuros deploys.
- Un incidente de seguridad leve (fuga de datos no crítica): preparar el informe ejecutivo para cumplimiento normativo, separando hechos comprobados de hipótesis.
Consejos para mejores resultados
- Usa siempre el mismo formato de hora (UTC o tu zona horaria) en todo el informe, desde la hora de inicio hasta cada acción correctiva, para evitar confusiones en equipos distribuidos.
- Enumera los servicios impactados por criticidad de negocio (por ejemplo, checkout primero, notificaciones después), no por orden alfabético, para que los stakeholders vean rápido lo prioritario.
- Diferencia claramente hechos de hipótesis: si no tienes evidencia de una causa, documéntala como sospecha y no como parte del RCA, así mantienes credibilidad técnica.