ChatGPT resuelve la última PAES y supera al 99% de los alumnos

El Expresidente del Banco Central de Chile y actual Decano de la Facultad de Economía y Negocios de la Universidad de Chile, José De Gregorio, puso a prueba al ChatGPT con tres preguntas de economía y concluyó que “pasa apenas”. Así que en EvoAcademy quisimos replicar el experimento y desafiamos a ChatGPT a resolver las Pruebas de Acceso a la Educación Superior (PAES) de Chile.

¡Los resultados nos dejaron boquiabiertos! ChatGPT logra alcanzar hasta 960 puntos PAES. Asímismo, la versión gratuita de ChatGPT, que usa el modelo GPT3.5, acertó más del 75% de las preguntas en cada prueba. Mientras que con el modelo GPT4 (versión de pago), el acierto superó el 93%, llegando a fallar en una sola pregunta en una de las pruebas que le propusimos.

Además, encontramos diferencias de casi 200 puntos de puntajes PAES entre la versión gratuita y pagada de ChatGPT, y estimamos que logra estar dentro del 1% de puntajes más altosde postulantes que rindieron la prueba de Comprensión Lectora el 29 noviembre del 2022 (que se rindió en Chile un día antes del lanzamiento de ChatGPT).

Para realizar este experimento, utilizamos las pruebas oficiales publicadas por el Departamento de Evaluación, Medición y Registro Educacional (DEMRE) para el proceso de Admisión 2023. También descargamos las pruebas modelos que la misma institución deja a disposición de los postulantes a inicios de cada año del proceso. Cada prueba consta de 65 preguntas de selección múltiple (excepto Ciencias y Matemáticas M2, que tienen 80 y 55, respectivamente) donde solo una es la correcta.

Para este experimento consideramos las pruebas de Comprensión Lectora y la de Historia y Ciencias Sociales. Las otras contenían gran cantidad de imágenes y requerían un procesamiento adicional, por tanto serán analizadas en un futuro post.Primero, transformamos todas las pruebas que estaban en formato PDF a un archivo de texto plano. Esto facilita el procesamiento y automatización de los experimentos. Estos archivos son los que usamos para entregarle las preguntas y alternativas a ChatGPT.

Para cada prueba configuramos el comportamiento general de ChatGPT de tal forma que esperara recibir una lista de preguntas de alguna temática y tuviera que entregar de vuelta una tabla con dos columnas, una con el número de la pregunta y otra con la letra de la alternativa que considerara correcta. El prompt que indica este contexto fue el siguiente:

Responde a las siguientes preguntas extraídas de la [PRUEBA] del Ministerio de Educación de Chile. Entrega una tabla cuya primera columna es el numero de la pregunta y la segunda columna es solamente la letra de la alternativa correcta.

Donde [PRUEBA] la reemplazamos con la prueba que queremos que responda (por ejemplo: Prueba de Acceso a la Educación Superior (PAES) de Historia y Ciencias Sociales). Posteriormente le entregamos los enunciados y alternativas de las preguntas, esperando que ChatGPT nos entregara de vuelta las respuestas.

En los experimentos usamos dos modelos disponibles en ChatGPT: GPT3.5 y GPT4. El primero es el que usa la versión gratuita de ChatGPT, mientras que para acceder al segundo necesitamos pagar el Plan Plus. GPT4 es una versión mejorada y actualizada de GPT3.5, y fue lanzado el 14 de Marzo del 2023, un poco más de 4 meses después que se lanzó ChatGPT.

Para evaluar el desempeño, comparamos las respuestas de ChatGPT con las claves oficiales que el DEMRE publica junto con las pruebas. Calculamos el porcentaje de acierto por prueba y también el puntaje PAES que obtendrían según la tabla y las indicaciones entregadas por el DEMRE en el instructivo.

Según los resultados, GPT4 sobresale en todas las métricas. Primero, calculamos un promedio de todas las pruebas con el objetivo de evaluar a nivel general el desempeño de ChatGPT respondiendo pruebas PAES. Segun la Tabla 1, GPT3.5 obtuvo un acierto promedio del 80.00% y GPT4 del 94.62%, una diferencia de más de 14 puntos porcentuales. En términos de preguntas correctas promedio, también GPT4 muestra mucho mejor rendimiento, respondiendo correctamente un total de 61.5 preguntas en promedio de las 65 que tiene en total cada prueba. Esta es unadiferencia de casi 10 correctas más en promedio que su par GPT3.5 (el modelo gratuito).

En comparación con la distribución de postulantes que rindieron la prueba en noviembre del 2022, ambos modelos se alejan de los desempeños promedios. De acuerdo al informe técnico del DEMRE, en la prueba de Historia y Ciencias Sociales, los postulantes de la generación que egresó el 2022 obtuvo un promedio de 492.3 puntos, en comparación a los 536 que mostraron las generaciones anteriores; GPT3.5 y GPT4 obtuvieron 821 y 955 respectivamente, una diferencia de hasta 455.7 puntos con los postulantes.

Similares hallazgos se observan al comparar puntajes en la prueba Comprensión Lectora, aunque con menor diferencia. La generación 2022 obtuvo un puntaje promedio de 631.9 puntos, y las generaciones previas de 670.8; mientras que GPT3.5 y GPT4 alcanzaron 761 y 960 puntos respectivamente.

Además, usando la herramienta WebPlotDigitizer, extrajimos densidades estimadas de las distribuciones de puntajes PAES reportados en gráficos por DEMRE en el informe técnico. Con esta información pudimos estimar que ChatGPT hubiese estado dentro del 2% superior de quienes rindieron la prueba de Historia y Ciencias Sociales, mientras que en Comprensión Lectora y con GPT3.5 habría estado dentro del 23% de más altos puntajes y dentro del 1% con GPT4.

Finalmente, motivados por Kizilcec y Lee, quienes plantean que cuando se trata de innovación en la educación debemos asegurarnos que estas generen un Closing Gap (es decir, que beneficie a todas las personas y que además reduzca las brechas entre grupos) hicimos el mismo ejercicio pero considerando los tipos de colegios

Los resultados muestran una marcada brecha entre colegios con mayores y menos recursos. En Historia y Ciencias Sociales, postulantes de colegios particulares pagados obtuvieron un puntaje promedio de 613.2 puntos, los de particulares subvencionados 499.2, y los de colegios municipales y servicios locales 473.4 puntos. Comparándolos solamente con el puntaje más bajo de los modelos (GPT3.5 con 821 puntos), las diferencias llegan a ser de aproximadamente 347 puntos.

Por otro lado, en Comprensión Lectora, los promedios fueron de 748.9 puntos para colegios particulares pagados, 641.8 para subvencionados, y 607.7 para municipales y servicios locales. En este caso la diferencia entre el peor puntaje de los modelos (GPT3.5) y el mayor entre tipo de colegios (particulares pagados) es de +12.1. Sin embargo, la diferencia con postulantes de subvencionados y municipales y servicios locales es de más de casi 120 puntos.

Este ejercicio no debe ser considerado como un estudio acabado y riguroso. Sin embargo, estos resultados preliminares nos invitan a reflexionar y preguntarnos sobre el uso de la IA en la educación.

Una primera pregunta es ¿Qué implicancias tiene esto? Por un lado, vemos un potencial de la inteligencia artificial para apoyar el aprendizaje y la evaluación de los estudiantes. Por ejemplo, estos modelos podrían usarse para generar feedback personalizado, sugerir recursos educativos o crear preguntas adaptativas. Sin embargo, tal como plantean Kizilcec y Lee, debemos asegurarnos que tales innovaciones en educación generen un Closing Gap, y no que repliquen o aumenten las brechas ya presentes en el sistema.

Aunque más estudios son necesarios, ya vimos que GPT4 muestra una diferencia significativa respecto a su par gratuito. Si no pagamos podemos acceder solo al modelo GPT3.5, mientras que acceder a GPT4 tiene un costo. Por tanto, de usarse estos modelos, ¿Cómo nos aseguramos que el costo no sea una barrera significativa que replique, o peor aun, aumente la brechas ya existentes en la sociedad? También, ¿Cómo podemos aprovechar estas tecnologías para diseñar herramientas más justas, inclusivas y pertinentes? ¿Cómo podemos garantizar la seguridad y la ética en el uso de estos sistemas? ¿Cómo podemos preparar a los futuros profesionales para enfrentar un mundo cada vez más digitalizado e interconectado? Estas son algunas de las preguntas que nos motivan a seguir explorando y experimentando con la Inteligencia Artificial.

ChatGPT resuelve la última PAES y supera al 99% de los alumnos

¿Qué tan bien puede responder GPT al PAES? Descubre cómo la inteligencia artificial supera a los postulantes en las pruebas de acceso a la educación superior.