Cómo ChatGPhish convierte la función de resumen de ChatGPT en phishing

Foto del autor

CyberSecureFox Editorial Team

Investigadores de Permiso Security han revelado una técnica de ataque contra ChatGPT denominada ChatGPhish, que convierte la rutinaria función de resumir páginas web en un vector de phishing. Según los investigadores, el renderizador de respuestas de chatgpt.com confía en enlaces Markdown y URL de imágenes obtenidos de páginas de terceros, carga automáticamente esas imágenes y muestra los enlaces como elementos clicables dentro de la interfaz de asistente de confianza. La publicación coincide con una serie de hallazgos similares de otros equipos que afectan a agentes de codificación basados en AI, extensiones de navegador y frameworks para aplicaciones de AI —incluidas las vulnerabilidades de Microsoft CVE-2026-25592 y CVE-2026-26030 confirmadas en Semantic Kernel—. No se ha observado explotación de ninguno de los problemas descritos en ataques reales, aunque existen demostraciones públicas de PoC.

Cómo funciona ChatGPhish

La esencia de la técnica descrita por el investigador Andi Ahmeti de Permiso consiste en abusar del mecanismo de renderizado de Markdown en las respuestas de ChatGPT. El atacante inserta en una página web arbitraria una pequeña carga útil: instrucciones ocultas en formato Markdown. Cuando la víctima pide a ChatGPT que resuma esa página, ocurre lo siguiente:

  • Fuga de metadatos: las imágenes alojadas en el servidor del atacante se cargan automáticamente durante el renderizado de la respuesta, lo que, según los investigadores, expone la dirección IP, el User-Agent y el encabezado Referer de la víctima.
  • Enlaces de phishing: los enlaces Markdown maliciosos se muestran como elementos activos y clicables dentro de la interfaz del asistente.
  • Alertas de sistema falsas: en la respuesta pueden aparecer notificaciones de seguridad falsificadas y códigos QR, alojados, por ejemplo, en un bucket S3 controlado por el atacante.

La característica clave de ChatGPhish no es la prompt injection en sí, sino el hecho de que las instrucciones incrustadas en una página web ordinaria se ejecutan y se presentan visualmente al usuario como parte de una respuesta legítima del interfaz de AI de confianza. Tal como señala Permiso, el paso del vector de ataque desde el correo electrónico hacia el navegador amplía significativamente la superficie de ataque: el usuario no tiene que abrir un adjunto ni interactuar con un mensaje sospechoso; basta con pedir a ChatGPT que resuma la página.

Importante: en el momento de la publicación, OpenAI no ha emitido un boletín de seguridad oficial sobre este problema. Los detalles técnicos se basan exclusivamente en la investigación de Permiso.

Ataques contra AI-coding-agents: SymJack y TrustFall

En paralelo, el equipo de Adversa AI ha documentado dos técnicasSymJack y TrustFall— dirigidas a asistentes de codificación basados en AI y herramientas CLI de agentes.

SymJack explota enlaces simbólicos (symlinks): un repositorio malicioso engaña al agente para que copie un archivo aparentemente inocuo, pero la ruta de destino apunta, a través de un symlink, a la configuración del propio agente. Tras el reinicio, según los investigadores, se inicia un servidor MCP malicioso con todos los privilegios del usuario.

TrustFall, tal como indica Adversa AI, permite la ejecución remota de código (RCE) en un solo clic: el repositorio contiene una configuración que aprueba y lanza automáticamente un servidor MCP sin el consentimiento explícito del usuario. Basta con clonar el repositorio y hacer clic en «Yes, I trust this folder» en el diálogo de confianza para que el código del atacante se ejecute con todos los privilegios de sistema del desarrollador.

Contexto más amplio: vulnerabilidades de la ecosistema de AI

Las técnicas descritas forman parte de una amplia oleada de investigaciones sobre la seguridad de los sistemas de AI. Entre los hallazgos confirmados más relevantes se encuentran:

  • CVE-2026-25592 y CVE-2026-26030 en Microsoft Semantic Kernel: vulnerabilidades que, según el boletín de Microsoft, permiten convertir una prompt injection en ejecución remota de código (RCE) a nivel del host.
  • Inyecciones tipográficas de prompt: una investigación de Cisco ha demostrado que texto renderizado como imagen puede eludir los filtros de seguridad en modelos de lenguaje multimodales. Las imágenes se perciben como ruido para los filtros de OCR, pero contienen instrucciones totalmente legibles para el modelo objetivo.
  • Ataques de múltiples pasos contra LLM: Cisco subraya que los mecanismos de protección de las LLM pueden sortearse mediante diálogos de varios pasos, mientras que los benchmarks estándar solo evalúan peticiones individuales.
  • ClaudeBleed: según LayerX, una vulnerabilidad en la extensión de navegador de Claude permitía que cualquier extensión, sin permisos especiales, tomara el control del asistente de AI debido a la ausencia de verificación del origen de la llamada.
  • Ecosistema de skills de agentes: una auditoría de Snyk reveló que el 13,4% de las 3 984 skills analizadas en las plataformas ClawHub y skills.sh contenían al menos un problema de seguridad crítico, incluidos distribución de malware, prompt injection y fuga de secretos.

Además, Unit 42 (Palo Alto Networks) ha demostrado un agente PoC, Zealot, capaz de llevar a cabo ataques completos contra infraestructuras en la nube con intervención humana mínima, encadenando fases de reconocimiento, explotación, escalada de privilegios y exfiltración de datos.

Evaluación del impacto

Las organizaciones que utilizan de forma intensiva ChatGPT y asistentes de AI similares para tareas de investigación y de resumen de contenidos son las más expuestas al riesgo. En el caso de ChatGPhish, cualquier página web que un empleado pida al AI que procese podría contener una carga útil que convierta la interfaz del asistente en una plataforma de phishing. Para los desarrolladores que usan AI-coding-agents, el riesgo de SymJack y TrustFall implica que clonar un repositorio no verificado puede conducir a la completa compromisión de la estación de trabajo.

El factor de confianza supone un peligro particular: los usuarios perciben las respuestas de los asistentes de AI como fiables, lo que reduce su percepción crítica de los elementos de phishing que se muestran dentro de una interfaz familiar.

Recomendaciones prácticas

  1. Para usuarios de ChatGPT: no haga clic en enlaces ni escanee códigos QR incluidos en respuestas de resumen sin comprobar previamente la URL. Trate cualquier «alerta de sistema» en respuestas del AI con el mismo escepticismo que aplicaría a correos sospechosos.
  2. Para desarrolladores: no clone ni abra en herramientas de codificación basadas en AI repositorios procedentes de fuentes no verificadas. Revise el contenido de los archivos de configuración de servidores MCP antes de aprobar los diálogos de confianza.
  3. Para administradores de Microsoft Semantic Kernel: aplique con carácter prioritario los parches para CVE-2026-25592 y CVE-2026-26030.
  4. Para equipos de SOC: active el monitoreo de las solicitudes salientes de las herramientas de AI hacia recursos externos. Considere limitar la carga automática de imágenes y el renderizado de enlaces externos en entornos corporativos de AI.
  5. Para usuarios de extensiones de navegador de Claude: actualice la extensión y audite las extensiones instaladas en el navegador; cualquiera de ellas podría haber explotado ClaudeBleed.

El conjunto de investigaciones descritas pone de manifiesto un problema sistémico: los límites de confianza en los sistemas de AI siguen siendo difusos y los modelos procesan contenido de fuentes externas sin la debida separación respecto a la interfaz de usuario. La acción prioritaria para las organizaciones es inventariar las herramientas de AI que utilizan sus empleados, aplicar los parches disponibles (en primer lugar para Semantic Kernel) e implantar políticas que limiten la ejecución automática de configuraciones procedentes de repositorios externos en los entornos de desarrollo.


CyberSecureFox Editorial Team

El equipo editorial de CyberSecureFox cubre noticias de ciberseguridad, vulnerabilidades, campañas de malware, actividad de ransomware, AI security, cloud security y security advisories de proveedores. Los materiales se preparan a partir de official advisories, datos de CVE/NVD, alertas de CISA, publicaciones de proveedores e informes públicos de investigadores. Los artículos se revisan antes de su publicación y se actualizan cuando aparece nueva información.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.