15/05/2026

Agentes de IA en la empresa, guía de reclutamiento 2026 (3/7): IA generativa vs IA agéntica

La IA generativa y la IA agéntica no son dos tecnologías rivales: son el mismo motor a dos niveles de autonomía. Con el generativo sigues siendo el autor, tú pides, la máquina produce, tú validas. Con el agéntico delegas, el sistema actúa solo sobre un perímetro y tú pasas de autor a supervisor. El verdadero punto de inflexión no es la potencia del modelo ni la calidad de las respuestas, es el horizonte temporal: cuánto tiempo avanza sin ti. Ese cambio no exige ni los mismos datos ni la misma organización, y es ahí donde la mayoría de las empresas se equivocan.

Serie «Agentes de IA en la empresa», artículo 3/7. Por Florent Cattaneo, Benoît Binachon y Guillaume Léorat, Uman Partners.

Hablamos de «IA» como si fuera una sola cosa. En la misma reunión, la misma palabra designa la herramienta que tu equipo de marketing usa para redactar publicaciones y el sistema que mañana debería pilotar una parte de tu cadena de suministro. Son dos regímenes muy distintos de una misma tecnología, que no exigen ni los mismos datos ni la misma organización.

El generativo y el agéntico: dos regímenes, no dos máquinas

La IA generativa es, ante todo, una capa de lenguaje. ChatGPT, Claude, Copilot: abres una interfaz en lenguaje natural entre tú y la máquina, y manipulas texto, sentido, conocimiento. Estás en el bucle, de forma permanente. Tú pides, ella produce, y cada salida pasa por tu validación. No es una herramienta que amplifica un gesto que ya hacías: es un eje nuevo, una nueva manera de dialogar con tus sistemas. Pero nada se mueve sin ti. Cuando te detienes, se detiene.

La IA agéntica es el mismo motor, delegado. Lo envuelves en un bucle, en herramientas, en un perímetro, y actúa. Encadena etapas, toma decisiones intermedias, invoca herramientas, sin devolverte el control a cada paso. Trabaja mientras estás en una reunión, durante la noche, mientras duermes. Un punto importante, a menudo mal entendido: no es otra IA. Es el mismo modelo, con un andamiaje que le permite actuar solo.

La diferencia no es, por tanto, una cuestión de potencia. Es una cuestión del lugar del humano en el bucle. Con el generativo, tú eres el motor. Con el agéntico, eres, en el mejor de los casos, el supervisor.

Lo que de verdad separa a ambos: el horizonte temporal

El verdadero marcador del cambio no es ni la calidad de las respuestas ni el tamaño del modelo. Es el horizonte temporal: ¿cuánto tiempo avanza el sistema solo antes de que un humano deba retomar el control?

Una herramienta generativa no tiene, por construcción, horizonte. Validas cada salida; se reinicia a cero con cada prompt. Un agente sí lo tiene, y hoy sabemos cuantificarlo. Es lo que mide METR, un laboratorio de investigación independiente que evalúa las capacidades reales de los sistemas de IA de frontera, con la noción de task time horizon: la duración de una tarea que un sistema logra llevar a cabo solo. Quédate con la idea; veremos la dinámica más adelante.

El generativo ya lo conoces, aunque no lo formules así.

Asegura el generativo y luego pasa a otra cosa

Seamos claros: el generativo ya no es una apuesta. Está probado, documentado, delimitado. Ya no es un asunto de estrategia, es ante todo un asunto de workplace.

Y en ese terreno no tienes elección. Tus colaboradores ya usan la IA, contigo o sin ti. Según un estudio de HBR (Alfaro et al., 2026), cerca del 40 % de las empresas han comprado licencias oficiales, pero en más del 90 % de ellas hay colaboradores que ya usan la IA de consumo. El shadow IT está ahí. La única pregunta es si lo canalizas o si miras hacia otro lado. Canalizar, no prohibir: prohibir solo empuja los usos fuera de tu vista, hacia zonas peligrosas para la empresa.

En Foodles, Florent desplegó con su equipo herramientas generativas en 2025: 15 000 horas de productividad anual ganadas en tres meses, no mediante un gran plan descendente, sino gracias a embajadores internos que difundieron los usos de equipo en equipo. La misma mecánica en BBVA, uno de los mayores grupos bancarios europeos (~125 000 empleados, 25 países), que pasó de 3 000 a 11 000 usuarios internos de IA generativa en menos de un año (HBR, Alfaro et al., 2026). El método que funciona es siempre el mismo: empieza pequeño, haz que crezca desde dentro. No un despliegue, un contagio.

En entornos regulados (banca, seguros, salud, sector público) es más difícil. No bloqueado, más difícil. Las exigencias de confidencialidad, trazabilidad y conformidad cambian las reglas. Es justo ahí donde un manager de transición que ya lo ha vivido te hace ganar seis meses: conoce las trampas, las arquitecturas que superan el filtro de conformidad, los puntos ciegos que hacen fracasar un despliegue.

Pero una vez asegurada y difundida esa etapa, conviértela en una rutina, no en un gran proyecto. No te saltes el generativo, pero tampoco te quedes ahí. Se asegura, se difunde y se saca de la lista de grandes proyectos para concentrar la energía en el agéntico. Porque el agéntico llega rápido.

El agéntico avanza rápido, más rápido que tus ciclos de transformación

Esto es lo que debería captar la atención de cualquier directivo. La duración de una tarea que un agente logra solo, el task time horizon, se duplica aproximadamente cada 7 meses desde 2019. Y el ritmo se acelera: en 2024-2025 estamos más bien en una duplicación cada 4 meses. Una especie de ley de Moore de la autonomía, todavía más rápida.

Una nota sobre la medición, porque es poco habitual. METR somete a los modelos a una batería de tareas calibradas en tiempo humano experto: tareas que un desarrollador o un investigador senior realizaría, cronómetro en mano, en dos minutos, en una hora, en ocho horas. El task time horizon de un modelo es la duración de una tarea humana que ese modelo logra la mitad de las veces. Es un indicador de autonomía efectiva, no una puntuación de benchmark abstracta.

En concreto: de unos segundos (GPT-2) a varias horas a finales de 2025, y las estimaciones para los modelos de principios de 2026 apuntan ya hacia una decena de horas. Un dato que conviene manejar con prudencia, y volveremos sobre ello: los intervalos de confianza son amplios y la medición se centra sobre todo en tareas de código. Si la dinámica se mantiene, la proyección de METR sitúa las tareas de un mes humano completo en un horizonte de 2027 a 2031.

Curva METR: duración de tarea que un agente de IA logra solo (task time horizon), crecimiento exponencial de GPT-2 a 2026 — Fuente: METR, task time horizon (duración de autonomía efectiva de un agente).

La máquina es cada vez más potente. Paradójicamente, todavía se ve poca en producción a gran escala. Todo el mundo sabe mostrar un POC, a menudo impresionante; casi nadie muestra un sistema que funcione a la escala de un proceso de negocio entero, sobre grandes volúmenes.

Florent ya vio esta película como data scientist en 2019 en Decathlon: decenas de POC de machine learning, una capacidad de prototipado enorme y un muro en el paso a producción. Industrializar un modelo daba miedo. Hoy, entrenar y operar un modelo en producción se ha convertido en una commodity de ingeniería. El mismo esquema se repite con el agéntico: mucha experimentación, poca industrialización. El paso a escala llegará, siempre llega. La pregunta no es si, sino cuándo. Y el cuándo llega más rápido que los ciclos de inversión y de transformación que observamos en la mayoría de nuestros clientes.

Es al medir este potencial cuando aparece la brecha de ejecución: la distancia entre lo que la máquina ya sabe hacer y lo que la organización es capaz de absorber. Del lado de la intención, casi tres de cada cuatro empresas prevén desplegar soluciones agénticas en menos de dos años, pero solo una de cada cinco dispone de una gobernanza madura (Deloitte, State of AI in the Enterprise 2026). Del lado de los propios directivos, solo el 25 % anticipa agentes «compañeros de equipo autónomos» en uno o dos años (McKinsey, The State of Organizations 2026). La capacidad corre por delante; la organización aún no ha empezado a correr. Es esa brecha la que vemos, misión tras misión.

¿Hay que limpiar todos los datos antes de hacer IA?

Antes de ver qué cambia el agéntico en tu organización, hay que desactivar un falso requisito previo que se oye en casi cada comité de dirección: «primero limpiamos los datos, luego hacemos IA». La respuesta honesta es: depende de lo que le pidas a la IA. Y es justo ahí donde el atajo hace daño.

Esa frase se forjó para la década 2015-2022, la del ML supervisado, los cuadros de mando ejecutivos, los pipelines ETL. En ese perímetro sigue siendo cierta: no se alimenta un modelo de pricing con datos sucios, y un comité de dirección no pilota sobre un repositorio ambiguo. Para el agéntico hay que distinguir tres usos, porque no tienen en absoluto la misma tolerancia.

Uno, la lectura de datos cualitativos. Ahí, el LLM absorbe un ruido que el ML clásico no toleraba. Un agente que consulta un ERP a través de una capa de herramientas gestiona las convenciones de nombres heterogéneas, los campos de comentarios improvisados, las herencias de migración. Lee en lenguaje natural, razona, hace preguntas de aclaración. El lenguaje admite la aproximación y la omisión: en ese terreno se avanza más rápido que antes.

Dos, el cálculo cuantitativo. Y ahí no ha cambiado nada. Si pides un margen, un stock, un precio, un agregado, datos sucios significa cifra falsa. Peor que el ML clásico, en realidad: un pipeline ETL que se topa con un dato sucio se cae, y esa caída es una alarma de calidad visible. Un LLM no se cae. Suaviza, completa y te devuelve una cifra plausible y falsa, con aplomo. El error ya no se detiene, se propaga en silencio. Lo que tranquiliza del generativo, que nunca se bloquea, es exactamente lo que debe preocuparte en cuanto toca cifras.

Tres, la escritura y la acción en los sistemas. Leer datos sucios, un LLM se las arregla; escribir en un sistema con reglas de negocio mal documentadas es donde se rompe. Todo lo que el agente escribe debe estar gobernado.

Se añaden dos matices honestos. El repositorio de cliente, producto y pedido debe estar resuelto: si «cliente» significa tres cosas en tres sistemas, el agente hará tonterías al primer reembolso. Es semántica operativa, no limpieza analítica. Y en dominios regulados (salud, finanzas, datos personales), «datos limpios primero» se convierte en «datos gobernados primero»: el marco regulatorio europeo sobre la IA impone trazabilidad y calidad de entrada.

Queda un punto que hay que nombrar, porque es político. El dogma del gran saneamiento previo tiene tracción por malas razones: las consultoras que venden data engineering y los editores de data warehouse tienen un interés directo en alargar la fase previa. E incluso sin mala intención, muchos responsables de datos tienen un reflejo calibrado para la década anterior: «primero la plataforma, luego los usos» era el orden correcto en 2015, ya no lo es para el agéntico. El reflejo no es culpable, simplemente está desfasado.

La regla práctica: no limpies todo tu patrimonio de datos antes de lanzar un agente. Descubres qué datos importan haciendo funcionar los agentes. Pilota un agente sobre un perímetro elegido, detecta dónde roza y limpia donde roza. Dieciocho meses de limpieza previa son la mejor forma de pulir aquello que nadie va a necesitar.

Lo que esto cambia para tu organización

Un agente delegado no tiene las mismas necesidades que una capa de lenguaje supervisada. En concreto, el agéntico exige cuatro cosas más: datos en tiempo real, no un batch de la noche anterior; un acceso de lectura y escritura en los sistemas operativos; una verdad semántica fiable, donde «cliente», «pedido» o «stock» signifiquen algo sin ambigüedad; y una gobernanza de las acciones, que diga quién valida qué, hasta dónde, con qué red de seguridad.

Toma las dos primeras. Un data warehouse moderno hace mucho más que un batch nocturno, pero su centro de gravedad sigue siendo el análisis del pasado: centraliza para que entiendas el ayer. Muy bien para un cuadro de mando. Insuficiente para un agente que debe actuar ahora: para un retailer, un agente personal shopper debe ver el carrito en tiempo real y poder actuar sobre él, añadir un artículo, reembolsar, modificar un pedido, al instante.

Este es el verdadero cambio de paradigma. El agéntico pone bajo tensión un plano operativo que la década del data warehouse infrainvirtió. La pila de datos no se simplifica, se desdobla:

Un plano operativo, donde viven los agentes: eventos en tiempo real, APIs transaccionales, buses de eventos, feature stores online, lectura y escritura en los sistemas de referencia (ERP, CRM, OMS). Ahí se cierra el bucle agente, decisión, acción.
Un plano analítico y semántico, donde sigue viviendo el DWH: repositorio, histórico, métricas, definiciones compartidas, observabilidad de negocio. Ahí pilotas la flota de agentes: KPI, deriva, auditoría, conformidad.

Los dos planos se comunican (CDC, reverse ETL, metric layer), pero no se confunden. El DWH no pierde su papel; simplemente ya no es todo el papel. Y el agéntico revela una deuda técnica que el DWH ocultaba: muchas empresas descubren que han infrainvertido diez años en su capa transaccional y de eventos en favor del almacén. Snowflakes magníficos apoyados sobre sistemas operativos hechos un plato de espaguetis, sin APIs limpias, sin event stream, sin una definición clara de «cliente» o «pedido». El agéntico saca esa deuda a la luz.

De paso, el centro de gravedad de los modelos se desplaza. Durante diez años, los data scientists construyeron modelos de ML al final de la cadena, detrás del DWH. Los LLM viven en la periferia: integrados en las herramientas de negocio, conectados a los sistemas operativos, en la experiencia de usuario en tiempo real. La IA se desplaza del fondo del sistema de información hacia su interfaz con lo real.

En la cúspide: un humano responsable

Cuando algo se desvía, y se desvía, hace falta alguien que responda. Acuérdate de Sonos: una renovación de aplicación fallida en 2024, un fiasco duradero, y un CEO que pierde su puesto a principios de 2025. Una IA, en cambio, puede llevarte contra el muro sin ninguna consecuencia para ella; te dirá «lo siento» con una sonrisa y volverá a empezar. El humano carga con un riesgo reputacional y una exposición personal. Esa aparente debilidad juega a tu favor: es precisamente lo que te permite delegar en un agente y dormir por la noche.

Queda desconfiar de una cifra. La decena de horas de la curva METR es el umbral de éxito al 50 %: una vez de cada dos. En producción se exige un 80 % y mucho más, y ahí los horizontes se derrumban. «Acertar una de cada dos veces» nunca ha hecho funcionar una cadena de suministro, ni ha cerrado un ejercicio contable, ni ha sostenido un recorrido de cliente. La distancia entre la capacidad bruta y la fiabilidad explotable es exactamente el terreno de la gobernanza, de la supervisión, del humano responsable. La capacidad corre por delante; el despliegue fiable sigue siendo un trabajo de organización, el único que nadie podrá delegar jamás en un agente.

Es la lectura del last mile (Lakhani, Spataro y Stave, HBR 2026): lo que bloquea casi nunca es el modelo, son los datos, la gobernanza, la adopción. Aquí, el eslabón que va con retraso es una arquitectura pensada para analizar el pasado cuando se le pide actuar en el presente. Es un cambio de arquitectura y de organización, no de herramienta. Y por eso se subestima tan a menudo como «proyecto técnico» cuando es una transformación.

El regulador lo ha entendido. El marco europeo sobre la IA impone, para los sistemas de alto riesgo, una gestión continua de los riesgos (Art. 9) y una supervisión humana efectiva (Art. 14), incluida la capacidad de suspender, revertir una decisión y accionar un «stop button». La regla es clara: cuanta más autonomía, más suben las exigencias. Un agente que actúa sobre un dominio regulado (crédito, RR. HH., salud) será clasificado casi sistemáticamente como «alto riesgo». En España, la AESIA, la agencia de supervisión de la inteligencia artificial, es uno de los primeros organismos nacionales dedicados en Europa: las empresas que operan desde Madrid o Barcelona tienen ahí un interlocutor y un marco que integrar desde el diseño, no después. Deloitte (2026) ha analizado más de 350 riesgos propios de los agentes autónomos (MIT AI Risk Database) e identifica cuatro dimensiones que gobernar: la ejecución orientada a resultados, la adaptación de la lógica de decisión, el alcance y la memoria, y la interconectividad.

Este desplazamiento sacude la cadena de responsabilidades. Esto es, línea a línea, lo que se mueve:

	Papel antes	Papel con los agentes
Negocio / Ops	Ejecutan la tarea	Definen la intención, supervisan, arbitran los casos límite; responsables del rendimiento
Organización de datos	Centralizan el dato en reposo, DWH, reporting	Garantizan el dato en movimiento: tiempo real, lectura/escritura, verdad semántica
CoE de IA	Cuadros de mando y modelos de ML aguas abajo del DWH	Despliegan modelos integrados en los sistemas operativos, lo más cerca posible del uso
Dirección de Sistemas / Plataforma	Alojan y aseguran los sistemas	Garantizan robustez, observabilidad y control de costes de una flota de agentes; cada agente es un nuevo endpoint que gobernar

La capa de lenguaje amplificaba tus gestos sin cambiar nada en tu organización. El agente delegado te obliga a repensar quién decide, quién ejecuta, quién responde. Una vez lanzada la máquina, es demasiado tarde para plantearse estas preguntas. Ahí se juega la verdadera transformación, y es el único trabajo que ningún agente hará por ti.

Qué significa esto para los perfiles que contratas

Este cambio de régimen redefine lo que buscas en tus líderes de Datos e IA. Ya no basta con alguien que construya la plataforma y modele el pasado. Necesitas perfiles que sepan cerrar el bucle entre decisión y acción, gobernar una flota de agentes en producción y asumir la responsabilidad de lo que esa flota hace. Un Chief Data & AI Officer que piense la arquitectura operativa y no solo el almacén analítico; un Head of Data & AI capaz de sostener el dato en movimiento; un Head of AI que industrialice más allá del POC; un CTO que trate cada agente como un endpoint que asegurar y observar. Ese es el terreno en el que trabajamos, evaluación técnica y de liderazgo incluidas.

Artículo siguiente (4/7): Las competencias de la era agéntica, lo que tus equipos van a tener que aprender (y desaprender).