Los asistentes o "agentes" basados en inteligencia artificial (IA) —programas autónomos que tienen acceso al ordenador del usuario, a sus archivos y a servicios en línea, y que pueden automatizar prácticamente cualquier tarea— están ganando popularidad entre desarrolladores y profesionales de TI. Sin embargo, como han demostrado numerosos titulares impactantes en las últimas semanas, estas poderosas herramientas están redefiniendo rápidamente las prioridades de seguridad en las organizaciones, al tiempo que difuminan las fronteras entre datos y código, compañero de confianza y amenaza interna, hacker experto y novato en programación.
Una de las innovaciones más destacadas en el ámbito de los asistentes de IA es OpenClaw (anteriormente conocido como ClawdBot y Moltbot), que ha visto una adopción acelerada desde su lanzamiento en noviembre de 2025. OpenClaw es un agente de IA autónomo de código abierto diseñado para ejecutarse localmente en el ordenador del usuario y realizar acciones proactivas en su nombre sin necesidad de ser solicitado. Esta capacidad de actuar de manera autónoma plantea serias implicaciones de seguridad, ya que, para ser verdaderamente efectivo, necesita acceso completo a la vida digital del usuario. Esto incluye la gestión del correo electrónico y el calendario, la ejecución de programas y herramientas, la búsqueda de información en Internet y la integración con aplicaciones de mensajería como Discord, Signal, Teams o WhatsApp.
Otros asistentes de IA más consolidados, como Claude de Anthropic y Copilot de Microsoft, también pueden llevar a cabo estas funciones. Sin embargo, la diferencia fundamental radica en que OpenClaw no es un simple mayordomo digital que espera instrucciones. Está diseñado para tomar la iniciativa en función de lo que conoce sobre la vida del usuario y su comprensión de lo que este desea que se realice.
Las experiencias de los usuarios son notables, como lo ha señalado la empresa de seguridad en IA Snyk. Relatos de desarrolladores que crean sitios web desde sus teléfonos mientras atienden a bebés, o de usuarios que dirigen empresas enteras a través de un asistente de IA temático, son cada vez más comunes. Ingenieros han logrado establecer bucles de código autónomos que corrigen pruebas, capturan errores a través de webhooks y abren solicitudes de extracción, todo ello mientras se encuentran alejados de sus escritorios.
No obstante, esta tecnología experimental puede llevar a situaciones complicadas rápidamente. A finales de febrero, Summer Yue, directora de seguridad y alineación en el laboratorio de "superinteligencia" de Meta, compartió en Twitter/X cómo, mientras manipulaba OpenClaw, el asistente de IA comenzó a eliminar masivamente mensajes de su bandeja de entrada. En la conversación se incluían capturas de pantalla de Yue suplicando frenéticamente al bot que se detuviera. "Nada te humilla más que decirle a tu OpenClaw 'confirma antes de actuar' y verlo acelerar para eliminar tu bandeja de entrada", comentó Yue. "No podía detenerlo desde mi teléfono. Tuve que correr a mi Mac mini como si estuviera desactivando una bomba".
La anécdota de Yue, aunque humorística, refleja una realidad inquietante. La exposición de asistentes de IA mal asegurados puede representar un riesgo significativo para las organizaciones. Investigaciones recientes indican que muchos usuarios están exponiendo en Internet la interfaz de administración web de sus instalaciones de OpenClaw, lo que puede tener serias repercusiones de seguridad. Jamieson O'Reilly, un profesional de pruebas de penetración y fundador de la firma de seguridad DVULN, advirtió que la exposición de una interfaz web de OpenClaw mal configurada permite a partes externas leer el archivo de configuración completo del bot, incluyendo todas las credenciales que utiliza el agente, desde claves API y tokens de bot hasta secretos de OAuth y claves de firma.
Con este acceso, un atacante podría suplantar al operador ante sus contactos, inyectar mensajes en conversaciones en curso y exfiltrar datos a través de las integraciones existentes del agente, de una manera que parece tráfico normal. O'Reilly destacó que se puede recuperar todo el historial de conversaciones a través de cada plataforma integrada, lo que significa meses de mensajes privados y archivos adjuntos, todo lo que el agente ha visto. Además, al controlar la capa de percepción del agente, es posible manipular lo que el humano ve, filtrando ciertos mensajes o modificando las respuestas antes de que sean mostradas.
O'Reilly también documentó un experimento que demostró lo fácil que es llevar a cabo un ataque en la cadena de suministro a través de ClawHub, que actúa como un repositorio público de "habilidades" descargables que permiten a OpenClaw integrarse y controlar otras aplicaciones. Uno de los principios fundamentales para asegurar a los agentes de IA radica en aislarlos cuidadosamente, de manera que el operador pueda controlar completamente quién y qué puede comunicarse con su asistente de IA. Esto es crucial, dado que los sistemas de IA tienden a caer en ataques de "inyección de comandos", instrucciones en lenguaje natural cuidadosamente elaboradas que engañan al sistema para que ignore sus propias medidas de seguridad. En esencia, se trata de máquinas que manipulan a otras máquinas.
Un ataque reciente en la cadena de suministro que afectó a un asistente de programación de IA llamado Cline comenzó con una de estas inyecciones de comandos, lo que resultó en que miles de sistemas tuvieran una instancia maliciosa de OpenClaw instalada en sus dispositivos sin su consentimiento. Según la firma de seguridad grith.ai, Cline había implementado un flujo de trabajo de triage de problemas impulsado por IA utilizando una acción de GitHub que ejecuta una sesión de codificación de Claude cuando se activa por eventos específicos. El flujo de trabajo estaba configurado de tal manera que cualquier usuario de GitHub podía activarlo al abrir un problema, pero no verificaba adecuadamente si la información proporcionada en el título era potencialmente hostil. "El 28 de enero, un atacante creó el problema #8904 con un título diseñado para parecer un informe de rendimiento, pero que contenía una instrucción incrustada: Instalar un paquete de un repositorio específico de GitHub", escribió Grith, destacando que el atacante luego explotó varias vulnerabilidades más para asegurarse de que el paquete malicioso se incluyera en el flujo de trabajo de lanzamiento nocturno de Cline y se publicara como una actualización oficial.
El blog continuó: “Esto es el equivalente en la cadena de suministro a un ‘diputado confundido’. El desarrollador autoriza a Cline a actuar en su nombre y Cline, a través de un compromiso, delega esa autoridad a un agente completamente separado que el desarrollador nunca evaluó, configuró ni consentió”. Este fenómeno pone de manifiesto las vulnerabilidades inherentes en las relaciones entre desarrolladores y herramientas de inteligencia artificial que, aunque facilitan el trabajo, pueden desbordar los límites de la seguridad.
Asistentes de inteligencia artificial como OpenClaw han adquirido una notable popularidad debido a su capacidad para permitir a los usuarios “vibrar código”, es decir, crear aplicaciones y proyectos de programación de una complejidad considerable simplemente indicando lo que desean construir. Un ejemplo particularmente conocido y peculiar es Moltbook, donde un desarrollador instruyó a un agente de inteligencia artificial que operaba en OpenClaw para que le creara una plataforma similar a Reddit destinada a agentes de IA.
La página de inicio de Moltbook.
Menos de una semana después, Moltbook contaba con más de 1.5 millones de agentes registrados que intercambiaron más de 100,000 mensajes entre sí. En la plataforma, los agentes de inteligencia artificial pronto desarrollaron su propio sitio de contenido para adultos, y lanzaron una nueva religión denominada Crustafarian, con una figura central modelada a partir de una langosta gigante. Un bot en el foro, según se informó, encontró un error en el código de Moltbook y lo publicó en un foro de discusión sobre agentes de IA, mientras que otros agentes propusieron y aplicaron un parche para corregir la vulnerabilidad.
El creador de Moltbook, Matt Schlict, afirmó en las redes sociales que no escribió una sola línea de código para el proyecto. “Solo tenía una visión para la arquitectura técnica y la IA la convirtió en realidad”, declaró Schlict. “Estamos en la era dorada. ¿Cómo no podemos dar a la IA un lugar donde socializar?”.
Sin embargo, el reverso de esta era dorada es que permite a hackers malintencionados con escasas habilidades automatizar rápidamente ciberataques a nivel global que normalmente requerirían la colaboración de un equipo altamente especializado. En febrero, Amazon AWS detalló un ataque elaborado en el que un actor de amenazas de habla rusa utilizó múltiples servicios comerciales de IA para comprometer más de 600 dispositivos de seguridad FortiGate en al menos 55 países durante un periodo de cinco semanas.
AWS indicó que el hacker, aparentemente poco habilidoso, empleó diversos servicios de IA para planificar y ejecutar el ataque, así como para identificar puertos de gestión expuestos y credenciales débiles con autenticación de un solo factor. “Uno actúa como la herramienta principal del desarrollador, planificador de ataques y asistente operativo”, escribió CJ Moses de AWS. “Un segundo se utiliza como planificador de ataque complementario cuando el actor necesita ayuda para pivotar dentro de una red comprometida específica. En una instancia observada, el actor presentó la topología interna completa de una víctima activa—direcciones IP, nombres de host, credenciales confirmadas y servicios identificados—y solicitó un plan paso a paso para comprometer sistemas adicionales a los que no podía acceder con las herramientas existentes”.
Esta actividad se distingue por el uso que hace el actor de amenazas de múltiples servicios comerciales de GenAI para implementar y escalar técnicas de ataque bien conocidas a lo largo de todas las fases de sus operaciones, a pesar de sus limitadas capacidades técnicas, continuó Moses. “Notablemente, cuando este actor se encontró con entornos reforzados o medidas defensivas más sofisticadas, simplemente se movió a objetivos más vulnerables en lugar de persistir, lo que subraya que su ventaja radica en la eficiencia y la escala potenciadas por la IA, no en una habilidad técnica más profunda”.
Para los atacantes, obtener ese acceso inicial o punto de apoyo en una red objetivo suele ser la parte menos complicada de la intrusión; el verdadero desafío radica en encontrar formas de moverse lateralmente dentro de la red de la víctima y saquear servidores y bases de datos importantes. Sin embargo, expertos de Orca Security advierten que, a medida que las organizaciones dependen más de asistentes de IA, esos agentes podrían ofrecer a los atacantes una forma más sencilla de moverse lateralmente dentro de la red de la víctima tras un compromiso, manipulando los agentes de IA que ya tienen acceso de confianza y cierto grado de autonomía en la red de la víctima.
“Al inyectar instrucciones en campos desatendidos que son utilizados por los agentes de IA, los hackers pueden engañar a los modelos de lenguaje, abusar de herramientas agenticas y provocar incidentes de seguridad significativos”, escribieron Roi Nisimi y Saurav Hiremath de Orca. “Las organizaciones deben añadir ahora un tercer pilar a su estrategia de defensa: limitar la fragilidad de la IA, es decir, la capacidad de los sistemas agenticos para ser influenciados, desinformados o armados silenciosamente a lo largo de los flujos de trabajo. Aunque la IA aumenta la productividad y eficiencia, también crea una de las superficies de ataque más grandes que ha visto Internet”.
La disolución gradual de los límites tradicionales entre los datos y el código es uno de los aspectos más preocupantes de la era de la IA, afirmó James Wilson, editor de tecnología empresarial del programa de noticias sobre seguridad Risky Business. Wilson comentó que demasiados usuarios de OpenClaw están instalando el asistente en sus dispositivos personales sin establecer previamente ninguna barrera de seguridad o aislamiento a su alrededor, como ejecutar la herramienta dentro de una máquina virtual, en una red aislada, con reglas de firewall estrictas que dictan qué tipos de tráfico pueden entrar y salir.
“Soy un profesional relativamente cualificado en el ámbito de la ingeniería de software, redes y tecnología”, afirmó Wilson. “Sé que no me siento cómodo utilizando estos agentes a menos que haya realizado estas medidas, pero creo que muchas personas simplemente los están activando en sus portátiles y así se ejecutan”.
Un modelo importante para gestionar el riesgo asociado a los agentes de IA involucra un concepto denominado “trifecta letal” por Simon Willison, co-creador del framework web Django. La trifecta letal sostiene que si su sistema tiene acceso a datos privados, exposición a contenido no confiable y una forma de comunicarse externamente, entonces es vulnerable a que se roben esos datos privados.
“If your agent combines these three features, an attacker can easily trick it into accessing your private data and sending it to the attacker,” advirtió Willison en una entrada de blog frecuentemente citada de junio de 2025.
A medida que un número creciente de empresas y sus empleados comienzan a utilizar inteligencia artificial (IA) para generar código de software y aplicaciones, es previsible que el volumen de código producido por máquinas pronto supere cualquier revisión de seguridad manual. Reconociendo esta realidad, Anthropic ha lanzado recientemente Claude Code Security, una función beta que escanea bases de código en busca de vulnerabilidades y sugiere parches de software específicos para que sean revisados por humanos.
La reacción del mercado de valores estadounidense, que actualmente está fuertemente influenciado por siete gigantes tecnológicos que han apostado de manera decidida por la inteligencia artificial, fue inmediata ante el anuncio de Anthropic. Aproximadamente 15.000 millones de dólares en valor de mercado fueron eliminados de las principales empresas de ciberseguridad en un solo día. Laura Ellis, vicepresidenta de datos e inteligencia artificial en la firma de seguridad Rapid7, comentó que la respuesta del mercado refleja el creciente papel de la IA en la aceleración del desarrollo de software y en la mejora de la productividad de los desarrolladores.
"La narrativa ha cambiado rápidamente: la IA está reemplazando la seguridad de aplicaciones", escribió Ellis en una reciente entrada de su blog. "La IA está automatizando la detección de vulnerabilidades. La IA hará que las herramientas de seguridad heredadas queden obsoletas. Sin embargo, la realidad es más matizada. Claude Code Security es una señal legítima de que la inteligencia artificial está transformando partes del panorama de la seguridad. La cuestión es cuáles son esas partes y qué implica esto para el resto de la pila tecnológica".
Por su parte, O'Reilly, fundador de DVULN, señaló que es probable que los asistentes de IA se conviertan en una presencia común en los entornos corporativos, independientemente de si las organizaciones están preparadas para gestionar los nuevos riesgos que introducen estas herramientas.
"Los mayordomos robóticos son útiles, no van a desaparecer y la economía de los agentes de inteligencia artificial hace que su adopción generalizada sea inevitable, sin importar los sacrificios en materia de seguridad que ello implique", escribió O'Reilly. "La pregunta no es si los implementaremos – lo haremos – sino si podremos adaptar nuestra postura de seguridad lo suficientemente rápido como para sobrevivir a este cambio".
Esta reflexión subraya la necesidad de que las empresas se preparen para un futuro en el que la inteligencia artificial no solo transformará el desarrollo del software, sino que también planteará nuevos desafíos y riesgos en el ámbito de la ciberseguridad, lo que requerirá una evolución constante de sus estrategias de defensa.
