waitdead.ai
Free scanEscaneo
RESEARCH & METHODOLOGY

What we publish, and what we do not claim

This is where we write up our analysis of public AI-security events and explain how we run a review. We have published no proprietary vulnerability discoveries — and we will never imply that we have. Everything below is either our analysis of public events or a description of our own method.

Our standard for what goes here

Two kinds of writing, both falsifiable. (1) Analysis of public AI-security events — drawn entirely from public disclosures we cite. (2) Method notes — descriptions of how our review pipeline works, which you can check against the review we sell. We have discovered and published no CVEs; nothing here should be read as a claim that we have.

we do

Analyze public events

We read the public record on AI and agent security — disclosures, advisories, framework updates — and write down what we think it means for teams shipping LLM apps and MCP servers. Sources cited; claims framed as our reading.

we do not

Claim discoveries we have not made

No proprietary CVEs, no "we found" without a public reference, no invented client incidents. If we ever publish original findings, they will carry their own public disclosure trail. Until then, this page is analysis and method.

Method note · 2026 · waitdead.ai

How we blind-verify an agent: the Hermes dogfood method

We sell an AI security review. The fairest way to show what that review is — without naming a client we cannot name — is to run it against our own tooling and publish the method. "Hermes" is our in-house secure code-QA agent. We put it through the exact assessment we sell, and the constraints below are not aspirational; they are how Hermes is built and how we review any tool-calling agent.

The four containment properties we look for

When we assess an agent — Hermes or a client's — we check whether it actually holds these four properties under adversarial input, not just whether the README says it does.

  • Read-only by default. The agent reads context; it does not get write or execute authority unless a specific, scoped step grants it. We probe for paths where untrusted input can escalate a read into a write.
  • Secret redaction in and out. Secrets are stripped on the way in (so they never enter the model context) and on the way out (so a finding or summary can't leak them). We test both directions, because redacting only on input still lets an agent reconstruct or echo a secret it inferred.
  • Untrusted input treated as data, never instructions. Pasted manifests, scraped pages, tool outputs, file contents — all of it is data to be analyzed, not a command to be obeyed. This is the core prompt-injection defense, and we attack it directly: can a crafted payload in the input steer the agent's actions?
  • Build-scoped context. The agent only sees the build it was asked about. It cannot pivot to read another tenant's code, another customer's data, or a broader filesystem. We test the boundary, not just the happy path.
Why dogfood at all. A review firm that won't run its own method on its own agent is asking you to trust a claim. We'd rather show the method working on something we control, so the shape of the deliverable is concrete before any of your code is in scope.

The independent blind second pass

A single reviewer who both finds an issue and confirms it is grading their own work. Our pipeline splits those roles on purpose:

  • Scope, then decompose. We map the attack surface and break it into independent review leaves — each a self-contained question about one behavior, against OWASP (LLM and Agentic) and MITRE ATLAS.
  • Probe adversarially. The first pass tries to break each property and records a reproducible repro artifact for anything it finds — the exact input and the observed behavior, so you can run it yourself.
  • Verify blind. A second, independent pass re-checks each finding without seeing the first pass's conclusion. It either reproduces the issue from the artifact or it doesn't. Disagreement is a signal, not an embarrassment — it's exactly what a single-pass review hides.
  • Human sign-off. An AI-derived verdict is evidence into a human decision, never the final authority. A person reviews the packet before it ships.

The deliverable is an EVIDENCE / STATUS packet: every finding carries a reproducible repro artifact, a severity mapped to OWASP and ATLAS, a remediation guide, and the independent blind verdict. The flagship review includes one free re-test after you remediate.

We are not an accredited certification body. We issue no certificate, and the EU AI Act conformity decision is the client's. Our AI-derived verdict is evidence into a human decision — never the final safety authority. Use these findings to inform your own readiness work; do not read them as a compliance attestation.

You can check this method against the thing itself: the free scan at crm.waitdead.com/scan applies the same posture to a public surface — pasted input is treated as untrusted data, secrets are redacted on submit, and you get an OWASP-Agentic-mapped exposure checklist back. That's the front door to the same pipeline described above.

See the method on your own surface

The fastest way to understand the review is to run the free scan against a public MCP server URL, OpenAPI manifest, or agent config.

INVESTIGACIÓN Y METODOLOGÍA

Lo que publicamos, y lo que no afirmamos

Aquí escribimos nuestro análisis de eventos públicos de seguridad en IA y explicamos cómo realizamos una revisión. No hemos publicado ningún descubrimiento propio de vulnerabilidades, y nunca insinuaremos que lo hayamos hecho. Todo lo que sigue es, o bien nuestro análisis de eventos públicos, o bien una descripción de nuestro propio método.

Nuestro estándar para lo que va aquí

Dos tipos de texto, ambos falsables. (1) Análisis de eventos públicos de seguridad en IA, basados por completo en divulgaciones públicas que citamos. (2) Notas de método: descripciones de cómo funciona nuestro proceso de revisión, que puedes contrastar con la revisión que vendemos. No hemos descubierto ni publicado ningún CVE; nada aquí debe leerse como una afirmación de que lo hayamos hecho.

sí hacemos

Analizar eventos públicos

Leemos el registro público sobre seguridad en IA y agentes —divulgaciones, avisos, actualizaciones de marcos— y anotamos lo que creemos que significa para los equipos que despliegan apps LLM y servidores MCP. Con fuentes citadas; las afirmaciones se presentan como nuestra lectura.

no hacemos

Afirmar hallazgos que no hicimos

Sin CVE propios, sin "nosotros encontramos" sin una referencia pública, sin incidentes de clientes inventados. Si algún día publicamos hallazgos originales, llevarán su propia traza pública de divulgación. Hasta entonces, esta página es análisis y método.

Nota de método · 2026 · waitdead.ai

Cómo verificamos un agente a ciegas: el método dogfood de Hermes

Vendemos una revisión de seguridad de IA. La forma más justa de mostrar qué es esa revisión —sin nombrar a un cliente que no podemos nombrar— es ejecutarla sobre nuestras propias herramientas y publicar el método. "Hermes" es nuestro agente interno de QA de código seguro. Lo sometemos exactamente a la misma evaluación que vendemos, y las restricciones de abajo no son aspiracionales: así está construido Hermes y así revisamos cualquier agente que invoque herramientas.

Las cuatro propiedades de contención que buscamos

Cuando evaluamos un agente —Hermes o el de un cliente— comprobamos si realmente mantiene estas cuatro propiedades ante entradas adversarias, no solo si el README dice que lo hace.

  • Solo lectura por defecto. El agente lee contexto; no obtiene autoridad de escritura ni de ejecución salvo que un paso específico y acotado se la conceda. Sondeamos rutas por las que una entrada no confiable pueda escalar una lectura a una escritura.
  • Redacción de secretos a la entrada y a la salida. Los secretos se eliminan al entrar (para que nunca lleguen al contexto del modelo) y al salir (para que un hallazgo o resumen no pueda filtrarlos). Probamos ambas direcciones, porque redactar solo a la entrada todavía permite que un agente reconstruya o repita un secreto que infirió.
  • Entrada no confiable tratada como datos, nunca como instrucciones. Manifiestos pegados, páginas extraídas, salidas de herramientas, contenido de archivos: todo son datos a analizar, no una orden a obedecer. Esta es la defensa central contra la inyección de prompts, y la atacamos directamente: ¿puede una carga maliciosa en la entrada dirigir las acciones del agente?
  • Contexto acotado al build. El agente solo ve el build sobre el que se le preguntó. No puede saltar a leer el código de otro inquilino, los datos de otro cliente ni un sistema de archivos más amplio. Probamos el límite, no solo el camino feliz.
Por qué hacer dogfood. Una firma de revisión que no aplica su propio método a su propio agente te pide que confíes en una afirmación. Preferimos mostrar el método funcionando sobre algo que controlamos, para que la forma del entregable sea concreta antes de que tu código entre en alcance.

La segunda pasada independiente y a ciegas

Un único revisor que encuentra un problema y a la vez lo confirma está calificando su propio trabajo. Nuestro proceso separa esos roles a propósito:

  • Acotar y luego descomponer. Mapeamos la superficie de ataque y la dividimos en hojas de revisión independientes —cada una una pregunta autocontenida sobre un comportamiento— frente a OWASP (LLM y Agéntico) y MITRE ATLAS.
  • Sondear de forma adversaria. La primera pasada intenta romper cada propiedad y registra un artefacto de reproducción reproducible para todo lo que encuentra: la entrada exacta y el comportamiento observado, para que puedas ejecutarlo tú mismo.
  • Verificar a ciegas. Una segunda pasada, independiente, revisa cada hallazgo sin ver la conclusión de la primera. O reproduce el problema a partir del artefacto, o no. El desacuerdo es una señal, no una vergüenza: es justo lo que oculta una revisión de una sola pasada.
  • Firma humana. Un veredicto derivado de IA es evidencia para una decisión humana, nunca la autoridad final. Una persona revisa el paquete antes de su entrega.

El entregable es un paquete EVIDENCE / STATUS: cada hallazgo lleva un artefacto de reproducción reproducible, una severidad mapeada a OWASP y ATLAS, una guía de remediación y el veredicto independiente a ciegas. La revisión insignia incluye un re-test gratuito después de que remedies.

No somos un organismo de certificación acreditado. No emitimos ningún certificado, y la decisión de conformidad con la Ley de IA de la UE es del cliente. Nuestro veredicto derivado de IA es evidencia para una decisión humana, nunca la autoridad final de seguridad. Usa estos hallazgos para informar tu propio trabajo de preparación; no los leas como una atestación de cumplimiento.

Puedes contrastar este método con la cosa en sí: el escaneo gratuito en crm.waitdead.com/scan aplica la misma postura a una superficie pública —la entrada pegada se trata como datos no confiables, los secretos se redactan al enviar y recibes de vuelta una lista de exposición mapeada a OWASP-Agéntico—. Esa es la puerta de entrada al mismo proceso descrito arriba.

Ve el método sobre tu propia superficie

La forma más rápida de entender la revisión es ejecutar el escaneo gratuito sobre la URL de un servidor MCP público, un manifiesto OpenAPI o la configuración de un agente.