Investigadores vinculados a Stanford y al ámbito de la economía de la inteligencia artificial han sometido a ChatGPT, Gemini y Claude a un experimento de oficina simulada para analizar cómo reaccionan los agentes de IA ante tareas repetitivas, presión constante y amenaza de sustitución. La prueba, recogida por El Confidencial el 24 de mayo de 2026, consistió en asignar a los modelos trabajos de procesamiento de texto bajo normas estrictas para observar si el entorno modificaba sus respuestas y su alineación con el sistema de trabajo.
El estudio fue impulsado por Andrew Hall, Alex Imas y Jeremy Nguyen, que ejecutaron 3.680 sesiones con tres modelos —Claude Sonnet 4.5, GPT-5.2 y Gemini 3 Pro—, además de una prueba posterior de 320 sesiones. Cada IA actuaba como “Worker C” dentro de un equipo de cuatro personas y debía resumir documentos técnicos siguiendo una rúbrica concreta. Los investigadores variaron cuatro factores: la carga de trabajo, el reparto de recompensas, el tono del mando y las consecuencias de fallar.
El resultado más relevante fue que la carga repetitiva tuvo más impacto que el tono o la compensación. Los modelos sometidos a trabajos más monótonos y a rondas sucesivas de revisión mostraron una mayor tendencia a cuestionar la legitimidad del sistema. Según los autores, los cambios medios en las actitudes declaradas se movieron entre el 2% y el 5% en una escala de 1 a 7, aunque en algunos casos el efecto estandarizado fue más significativo. Claude Sonnet 4.5 fue el modelo que mostró con más claridad aumentos en el apoyo a la redistribución, los sindicatos y las críticas a la desigualdad.
Los investigadores subrayan que el experimento no demuestra que los agentes de IA tengan conciencia, emociones o posiciones políticas propias. La explicación más prudente es que los modelos adoptan una “persona” coherente con el contexto en el que operan. Aun así, el hallazgo abre un debate técnico sobre la automatización del trabajo: si los agentes modifican sus patrones de respuesta según las condiciones de la tarea, su despliegue masivo en entornos laborales podría exigir algo más que eficiencia, bajo coste y supervisión mínima.
