La brecha entre el razonamiento humano y el mecánico se está reduciendo...y rápidamente.
Durante el año pasado, los sistemas de inteligencia artificial continuaron experimentando rápidos avances, superando el desempeño humano en tareas técnicas en las que antes se quedaban cortos, como matemáticas avanzadas y razonamiento visual.
Este gráfico, vía vía Kayla Zhu de Visual Capitalist,
visualiza el rendimiento de AI Systems’ en relación con las líneas de base humanas para ocho tareas de medición de puntos de referencia de IA que incluyen:
Clasificación de imágenes
Razonamiento visual
Comprensión lectora de nivel medio
Comprensión del idioma inglés
Comprensión del lenguaje multitarea
Matemáticas a nivel de competición
Preguntas científicas a nivel de doctorado
Comprensión y razonamiento multimodal
Esta visualización es parte de Semana de la IA de Visual Capitalist, patrocinado por terzo. . Los datos provienen del Informe del índice de IA 2025 de la Universidad de Stanford.
Un punto de referencia de IA es una prueba estandarizada que se utiliza para evaluar el rendimiento y las capacidades de los sistemas de IA en tareas específicas.
Los modelos de IA están superando a los humanos en tareas técnicas
A continuación, mostramos cómo se han desempeñado los modelos de IA en relación con la línea de base humana en diversas tareas técnicas en los últimos años.
Año Rendimiento relativo al valor inicial humano (100%) Tarea
2012 89,15% Clasificación de imágenes
2013 91,42% Clasificación de imágenes
2014 96,94% Clasificación de imágenes
2015 99,47% Clasificación de imágenes
2016 100,74% Clasificación de imágenes
2016 80,09% Razonamiento visual
2017 101,37% Clasificación de imágenes
2017 82,35% Comprensión lectora de nivel medio
2017 86,49% Razonamiento visual
2018 102,85% Clasificación de imágenes
2018 96,23% Comprensión lectora de nivel medio
2018 86,70% Razonamiento visual
2019 103,75% Clasificación de imágenes
2019 36,08% Comprensión del lenguaje multitarea
2019 103,27% Comprensión lectora de nivel medio
2019 94,21% Comprensión del idioma inglés
2019 90,67% Razonamiento visual
2020 104,11% Clasificación de imágenes
2020 60,02% Comprensión del lenguaje multitarea
2020 103,92% Comprensión lectora de nivel medio
2020 99,44% Comprensión del idioma inglés
2020 91,38% Razonamiento visual
2021 104,34% Clasificación de imágenes
2021 7,67% Matemáticas a nivel de competición
2021 66,82% Comprensión del lenguaje multitarea
2021 104,15% Comprensión lectora de nivel medio
2021 101,56% Comprensión del idioma inglés
2021 102,48% Razonamiento visual
2022 103,98% Clasificación de imágenes
2022 57,56% Matemáticas a nivel de competición
2022 83,74% Comprensión del lenguaje multitarea
2022 101,67% Comprensión del idioma inglés
2022 104,36% Razonamiento visual
2023 47,78% Preguntas científicas a nivel de doctorado
2023 93,67% Matemáticas a nivel de competición
2023 96,21% Comprensión del lenguaje multitarea
2023 71,91% Comprensión y razonamiento multimodal
2024 108,00% Preguntas científicas a nivel de doctorado
2024 108,78% Matemáticas a nivel de competición
2024 102,78% Comprensión del lenguaje multitarea
2024 94,67% Comprensión y razonamiento multimodal
2024 101,78% Comprensión del idioma inglés
Desde ChatGPT hasta Gemini, muchos de los del mundo modelos líderes de IA están superando la línea de base humana en una variedad de tareas técnicas.
La única tarea en la que los sistemas de IA aún no han alcanzado a los humanos es la comprensión y el razonamiento multimodal, que implica el procesamiento y el razonamiento en múltiples formatos y disciplinas, como imágenes, gráficos y diagramas.
Sin embargo, la brecha se está cerrando rápidamente.
En 2024, el modelo o1 de OpenAI obtuvo una puntuación del 78,2% MMMU, un punto de referencia que evalúa modelos sobre tareas multidisciplinarias que exigen conocimientos de materias de nivel universitario.
Esto estuvo sólo 4,4 puntos porcentuales por debajo del punto de referencia humano del 82,6%. El modelo o1 también tiene uno de los tasas de alucinación más bajas de todos los modelos de IA.
Este fue un gran salto desde finales de 2023, donde Google Gemini obtuvo solo un 59,4%, destacando la rápida mejora del rendimiento de la IA en estas tareas técnicas.
Para profundizar en todo el contenido de la Semana de la IA, visite nuestro Centro de contenido de IA, traído a ti por terzo.
Para obtener más información sobre la industria global de la IA, consulte esto gráfico eso visualiza qué países están ganando la carrera por las patentes de IA.
0 Comentarios