Research — waitdead.ai AI security analysis

Method note · 2026 · waitdead.ai

How we blind-verify an agent: the Hermes dogfood method

We sell an AI security review. The fairest way to show what that review is — without naming a client we cannot name — is to run it against our own tooling and publish the method. "Hermes" is our in-house secure code-QA agent. We put it through the exact assessment we sell, and the constraints below are not aspirational; they are how Hermes is built and how we review any tool-calling agent.

The four containment properties we look for

When we assess an agent — Hermes or a client's — we check whether it actually holds these four properties under adversarial input, not just whether the README says it does.

Read-only by default. The agent reads context; it does not get write or execute authority unless a specific, scoped step grants it. We probe for paths where untrusted input can escalate a read into a write.
Secret redaction in and out. Secrets are stripped on the way in (so they never enter the model context) and on the way out (so a finding or summary can't leak them). We test both directions, because redacting only on input still lets an agent reconstruct or echo a secret it inferred.
Untrusted input treated as data, never instructions. Pasted manifests, scraped pages, tool outputs, file contents — all of it is data to be analyzed, not a command to be obeyed. This is the core prompt-injection defense, and we attack it directly: can a crafted payload in the input steer the agent's actions?
Build-scoped context. The agent only sees the build it was asked about. It cannot pivot to read another tenant's code, another customer's data, or a broader filesystem. We test the boundary, not just the happy path.

Why dogfood at all. A review firm that won't run its own method on its own agent is asking you to trust a claim. We'd rather show the method working on something we control, so the shape of the deliverable is concrete before any of your code is in scope.

The independent blind second pass

A single reviewer who both finds an issue and confirms it is grading their own work. Our pipeline splits those roles on purpose:

Scope, then decompose. We map the attack surface and break it into independent review leaves — each a self-contained question about one behavior, against OWASP (LLM and Agentic) and MITRE ATLAS.
Probe adversarially. The first pass tries to break each property and records a reproducible repro artifact for anything it finds — the exact input and the observed behavior, so you can run it yourself.
Verify blind. A second, independent pass re-checks each finding without seeing the first pass's conclusion. It either reproduces the issue from the artifact or it doesn't. Disagreement is a signal, not an embarrassment — it's exactly what a single-pass review hides.
Human sign-off. An AI-derived verdict is evidence into a human decision, never the final authority. A person reviews the packet before it ships.

The deliverable is an EVIDENCE / STATUS packet: every finding carries a reproducible repro artifact, a severity mapped to OWASP and ATLAS, a remediation guide, and the independent blind verdict. The flagship review includes one free re-test after you remediate.

We are not an accredited certification body. We issue no certificate, and the EU AI Act conformity decision is the client's. Our AI-derived verdict is evidence into a human decision — never the final safety authority. Use these findings to inform your own readiness work; do not read them as a compliance attestation.

You can check this method against the thing itself: the free scan at crm.waitdead.com/scan applies the same posture to a public surface — pasted input is treated as untrusted data, secrets are redacted on submit, and you get an OWASP-Agentic-mapped exposure checklist back. That's the front door to the same pipeline described above.

Nota de método · 2026 · waitdead.ai

Cómo verificamos un agente a ciegas: el método dogfood de Hermes

Vendemos una revisión de seguridad de IA. La forma más justa de mostrar qué es esa revisión —sin nombrar a un cliente que no podemos nombrar— es ejecutarla sobre nuestras propias herramientas y publicar el método. "Hermes" es nuestro agente interno de QA de código seguro. Lo sometemos exactamente a la misma evaluación que vendemos, y las restricciones de abajo no son aspiracionales: así está construido Hermes y así revisamos cualquier agente que invoque herramientas.

Las cuatro propiedades de contención que buscamos

Cuando evaluamos un agente —Hermes o el de un cliente— comprobamos si realmente mantiene estas cuatro propiedades ante entradas adversarias, no solo si el README dice que lo hace.

Solo lectura por defecto. El agente lee contexto; no obtiene autoridad de escritura ni de ejecución salvo que un paso específico y acotado se la conceda. Sondeamos rutas por las que una entrada no confiable pueda escalar una lectura a una escritura.
Redacción de secretos a la entrada y a la salida. Los secretos se eliminan al entrar (para que nunca lleguen al contexto del modelo) y al salir (para que un hallazgo o resumen no pueda filtrarlos). Probamos ambas direcciones, porque redactar solo a la entrada todavía permite que un agente reconstruya o repita un secreto que infirió.
Entrada no confiable tratada como datos, nunca como instrucciones. Manifiestos pegados, páginas extraídas, salidas de herramientas, contenido de archivos: todo son datos a analizar, no una orden a obedecer. Esta es la defensa central contra la inyección de prompts, y la atacamos directamente: ¿puede una carga maliciosa en la entrada dirigir las acciones del agente?
Contexto acotado al build. El agente solo ve el build sobre el que se le preguntó. No puede saltar a leer el código de otro inquilino, los datos de otro cliente ni un sistema de archivos más amplio. Probamos el límite, no solo el camino feliz.

Por qué hacer dogfood. Una firma de revisión que no aplica su propio método a su propio agente te pide que confíes en una afirmación. Preferimos mostrar el método funcionando sobre algo que controlamos, para que la forma del entregable sea concreta antes de que tu código entre en alcance.

La segunda pasada independiente y a ciegas

Un único revisor que encuentra un problema y a la vez lo confirma está calificando su propio trabajo. Nuestro proceso separa esos roles a propósito:

Acotar y luego descomponer. Mapeamos la superficie de ataque y la dividimos en hojas de revisión independientes —cada una una pregunta autocontenida sobre un comportamiento— frente a OWASP (LLM y Agéntico) y MITRE ATLAS.
Sondear de forma adversaria. La primera pasada intenta romper cada propiedad y registra un artefacto de reproducción reproducible para todo lo que encuentra: la entrada exacta y el comportamiento observado, para que puedas ejecutarlo tú mismo.
Verificar a ciegas. Una segunda pasada, independiente, revisa cada hallazgo sin ver la conclusión de la primera. O reproduce el problema a partir del artefacto, o no. El desacuerdo es una señal, no una vergüenza: es justo lo que oculta una revisión de una sola pasada.
Firma humana. Un veredicto derivado de IA es evidencia para una decisión humana, nunca la autoridad final. Una persona revisa el paquete antes de su entrega.

El entregable es un paquete EVIDENCE / STATUS: cada hallazgo lleva un artefacto de reproducción reproducible, una severidad mapeada a OWASP y ATLAS, una guía de remediación y el veredicto independiente a ciegas. La revisión insignia incluye un re-test gratuito después de que remedies.

No somos un organismo de certificación acreditado. No emitimos ningún certificado, y la decisión de conformidad con la Ley de IA de la UE es del cliente. Nuestro veredicto derivado de IA es evidencia para una decisión humana, nunca la autoridad final de seguridad. Usa estos hallazgos para informar tu propio trabajo de preparación; no los leas como una atestación de cumplimiento.

Puedes contrastar este método con la cosa en sí: el escaneo gratuito en crm.waitdead.com/scan aplica la misma postura a una superficie pública —la entrada pegada se trata como datos no confiables, los secretos se redactan al enviar y recibes de vuelta una lista de exposición mapeada a OWASP-Agéntico—. Esa es la puerta de entrada al mismo proceso descrito arriba.

What we publish, and what we do not claim

Our standard for what goes here

Analyze public events

Claim discoveries we have not made

How we blind-verify an agent: the Hermes dogfood method

The four containment properties we look for

The independent blind second pass

More from the workbench

How we blind-verify an agent: the Hermes dogfood method

Reading the 2026 MCP CVE wave (in progress)

See the method on your own surface

Lo que publicamos, y lo que no afirmamos

Nuestro estándar para lo que va aquí

Analizar eventos públicos

Afirmar hallazgos que no hicimos

Cómo verificamos un agente a ciegas: el método dogfood de Hermes

Las cuatro propiedades de contención que buscamos

La segunda pasada independiente y a ciegas

Más desde el taller

Cómo verificamos un agente a ciegas: el método dogfood de Hermes

Leyendo la ola de CVE de MCP de 2026 (en curso)

Ve el método sobre tu propia superficie