Visualización de la IA frente al desempeño humano en tareas técnicas

La brecha entre el razonamiento humano y el mecánico se está reduciendo...y rápidamente.

Durante el año pasado, los sistemas de inteligencia artificial continuaron experimentando rápidos avances, superando el desempeño humano en tareas técnicas en las que antes se quedaban cortos, como matemáticas avanzadas y razonamiento visual.

Este gráfico, vía vía Kayla Zhu de Visual Capitalist,

visualiza el rendimiento de AI Systems’ en relación con las líneas de base humanas para ocho tareas de medición de puntos de referencia de IA que incluyen:

Clasificación de imágenes

Razonamiento visual

Comprensión lectora de nivel medio

Comprensión del idioma inglés

Comprensión del lenguaje multitarea

Matemáticas a nivel de competición

Preguntas científicas a nivel de doctorado

Comprensión y razonamiento multimodal

Esta visualización es parte de Semana de la IA de Visual Capitalist, patrocinado por terzo. . Los datos provienen del Informe del índice de IA 2025 de la Universidad de Stanford.

Un punto de referencia de IA es una prueba estandarizada que se utiliza para evaluar el rendimiento y las capacidades de los sistemas de IA en tareas específicas.

Los modelos de IA están superando a los humanos en tareas técnicas

A continuación, mostramos cómo se han desempeñado los modelos de IA en relación con la línea de base humana en diversas tareas técnicas en los últimos años.

Año Rendimiento relativo al valor inicial humano (100%) Tarea

2012 89,15% Clasificación de imágenes

2013 91,42% Clasificación de imágenes

2014 96,94% Clasificación de imágenes

2015 99,47% Clasificación de imágenes

2016 100,74% Clasificación de imágenes

2016 80,09% Razonamiento visual

2017 101,37% Clasificación de imágenes

2017 82,35% Comprensión lectora de nivel medio

2017 86,49% Razonamiento visual

2018 102,85% Clasificación de imágenes

2018 96,23% Comprensión lectora de nivel medio

2018 86,70% Razonamiento visual

2019 103,75% Clasificación de imágenes

2019 36,08% Comprensión del lenguaje multitarea

2019 103,27% Comprensión lectora de nivel medio

2019 94,21% Comprensión del idioma inglés

2019 90,67% Razonamiento visual

2020 104,11% Clasificación de imágenes

2020 60,02% Comprensión del lenguaje multitarea

2020 103,92% Comprensión lectora de nivel medio

2020 99,44% Comprensión del idioma inglés

2020 91,38% Razonamiento visual

2021 104,34% Clasificación de imágenes

2021 7,67% Matemáticas a nivel de competición

2021 66,82% Comprensión del lenguaje multitarea

2021 104,15% Comprensión lectora de nivel medio

2021 101,56% Comprensión del idioma inglés

2021 102,48% Razonamiento visual

2022 103,98% Clasificación de imágenes

2022 57,56% Matemáticas a nivel de competición

2022 83,74% Comprensión del lenguaje multitarea

2022 101,67% Comprensión del idioma inglés

2022 104,36% Razonamiento visual

2023 47,78% Preguntas científicas a nivel de doctorado

2023 93,67% Matemáticas a nivel de competición

2023 96,21% Comprensión del lenguaje multitarea

2023 71,91% Comprensión y razonamiento multimodal

2024 108,00% Preguntas científicas a nivel de doctorado

2024 108,78% Matemáticas a nivel de competición

2024 102,78% Comprensión del lenguaje multitarea

2024 94,67% Comprensión y razonamiento multimodal

2024 101,78% Comprensión del idioma inglés

Desde ChatGPT hasta Gemini, muchos de los del mundo modelos líderes de IA están superando la línea de base humana en una variedad de tareas técnicas.

La única tarea en la que los sistemas de IA aún no han alcanzado a los humanos es la comprensión y el razonamiento multimodal, que implica el procesamiento y el razonamiento en múltiples formatos y disciplinas, como imágenes, gráficos y diagramas.

Sin embargo, la brecha se está cerrando rápidamente.

En 2024, el modelo o1 de OpenAI obtuvo una puntuación del 78,2% MMMU, un punto de referencia que evalúa modelos sobre tareas multidisciplinarias que exigen conocimientos de materias de nivel universitario.

Esto estuvo sólo 4,4 puntos porcentuales por debajo del punto de referencia humano del 82,6%. El modelo o1 también tiene uno de los tasas de alucinación más bajas de todos los modelos de IA.

Este fue un gran salto desde finales de 2023, donde Google Gemini obtuvo solo un 59,4%, destacando la rápida mejora del rendimiento de la IA en estas tareas técnicas.

Para profundizar en todo el contenido de la Semana de la IA, visite nuestro Centro de contenido de IA, traído a ti por terzo.

Para obtener más información sobre la industria global de la IA, consulte esto gráfico eso visualiza qué países están ganando la carrera por las patentes de IA.