La inteligencia artificial, aclamada por sus proezas en laboratorios, se estrella contra la cruda realidad del mundo laboral. Sus métricas de éxito están rotas.
La Falla Sistémica de la Medición Aislada
Durante décadas, la evaluación de la IA se ha cimentado en una premisa seductora: ¿supera la máquina al humano en una tarea específica? Desde el ajedrez hasta la codificación, este enfoque, fácil de estandarizar y optimizar, ha generado titulares y clasificaciones, pero ha ignorado una verdad fundamental: la IA rara vez se utiliza en el mundo real de la misma manera en que se evalúa. La investigación, iniciada en 2022 y abarcando pequeñas empresas, organizaciones de salud, humanitarias, sin fines de lucro y de educación superior en el Reino Unido, Estados Unidos y Asia, así como ecosistemas de diseño de IA en Londres y Silicon Valley, ha revelado un patrón consistente: incluso los modelos con puntuaciones brillantes en pruebas estandarizadas no cumplen sus promesas una vez integrados en entornos de trabajo reales. Esta profunda desalineación conduce a una comprensión errónea de sus capacidades, a la omisión de riesgos sistémicos y a una evaluación equivocada de sus consecuencias económicas y sociales.
Cuando la Precisión se Convierte en Retraso: El Cementerio de la IA
El problema radica en que, mientras los benchmarks actuales prueban la IA en un vacío, a nivel de tarea y con respuestas claras de 'correcto' o 'incorrecto', su aplicación real se da en entornos complejos y dinámicos. En estos escenarios, la IA interactúa con múltiples personas, y su verdadero rendimiento emerge solo a lo largo de periodos prolongados de uso. Un ejemplo contundente de esta desconexión se observa en el sector de la salud. Modelos de IA aprobados por la FDA, capaces de leer escáneres médicos con mayor rapidez y precisión que un radiólogo experto, han demostrado ser contraproducentes en la práctica clínica. En unidades de radiología de hospitales desde California hasta las afueras de Londres, el personal ha reportado que la interpretación de los resultados de la IA, junto con los estándares de informes hospitalarios y los requisitos regulatorios nacionales, consume tiempo adicional. Lo que en el laboratorio parecía una herramienta para mejorar la productividad, en la realidad introdujo retrasos. Las decisiones médicas no son estáticas ni individuales; dependen de equipos multidisciplinares y evolucionan a lo largo de días o semanas. Cuando los altos puntajes de los benchmarks no se traducen en un rendimiento real, la IA, incluso la más elogiada, termina siendo abandonada en lo que se ha denominado el “cementerio de la IA”, con un significativo desperdicio de tiempo, esfuerzo y dinero, y una erosión de la confianza organizacional y pública.
HAIC: Un Nuevo Horizonte para la Evaluación Colaborativa
Para mitigar estos desafíos y cerrar la brecha entre el rendimiento de los benchmarks y el mundo real, se propone un cambio fundamental hacia los HAIC benchmarks (Human–AI, Context-Specific Evaluation). Este nuevo enfoque redefine la evaluación de la IA en cuatro aspectos clave. Primero, cambia la unidad de análisis del rendimiento individual y de tarea única al rendimiento de equipo y flujo de trabajo. Segundo, expande el horizonte temporal de pruebas puntuales con respuestas correctas/incorrectas a impactos a largo plazo. Tercero, amplía las medidas de resultado de la corrección y la velocidad a los resultados organizacionales, la calidad de la coordinación y la detectabilidad de errores. Y cuarto, considera los efectos del sistema, pasando de resultados aislados a consecuencias ascendentes y descendentes.
Este cambio de paradigma es crucial para contextos de alto riesgo y para recalibrar las expectativas infladas de ganancias de productividad. Un sistema hospitalario del Reino Unido, entre 2021 y 2024, ya ha comenzado a aplicar este enfoque, evaluando cómo la presencia de la IA en equipos multidisciplinares afecta no solo la precisión, sino también la coordinación y la deliberación colectiva. Solo al evaluar la IA dentro del intrincado tapiz de las interacciones humanas y los flujos de trabajo organizacionales podremos calibrar sus verdaderas capacidades y asegurar que funcione como un participante productivo, generando valor colectivo sostenido y evitando las trampas de expectativas infladas y el desperdicio de recursos.