Una investigación de la Universidad Brigham Young quiso medir las habilidades existentes entre humanos y la IA de ChatGPT en la resolución de problemas de contabilidad. Los estudiantes obtuvieron un promedio general de 76.7%, en comparación con el puntaje de ChatGPT de 47.4%. En un 11.3% de las preguntas, ChatGPT obtuvo una puntuación más alta que el promedio de los estudiantes, obteniendo un desempeño particularmente bueno en AIS y auditoría.
«Cuando esta tecnología salió por primera vez, todos estaban preocupados de que los estudiantes ahora pudieran usarla para hacer trampa», dijo el autor principal del estudio, David Wood, profesor de contabilidad de BYU. «Pero las oportunidades para hacer trampa siempre han existido. Entonces, para nosotros, estamos tratando de enfocarnos en lo que podemos hacer con esta tecnología ahora que no podíamos hacer antes para mejorar el proceso de enseñanza para los profesores y el proceso de aprendizaje para los estudiantes. Probarlo fue revelador».
327 coautores de 186 instituciones educativas en 14 países participaron en la investigación, contribuyendo con 25,181 preguntas de exámenes de contabilidad en el aula. También reclutaron estudiantes de pregrado de BYU (incluida la hija de Wood, Jessica) para alimentar otras 2,268 preguntas del banco de pruebas de libros de texto a ChatGPT. Las preguntas abarcaban los sistemas de información contable (SIA), la auditoría, la contabilidad financiera, la contabilidad administrativa y los impuestos, y variaban en dificultad y tipo (verdadero/falso, opción múltiple, respuesta corta, etc.).
Cuando se trataba del tipo de pregunta, ChatGPT tuvo mejores resultados en preguntas verdaderas/falsas (68.7% correctas) y preguntas de opción múltiple (59.5%), pero tuvo problemas con las preguntas de respuesta corta (entre 28.7% y 39.1%). En general, las preguntas de orden superior eran más difíciles de responder para ChatGPT. De hecho, a veces ChatGPT proporcionaría descripciones escritas autorizadas para respuestas incorrectas, o respondería la misma pregunta de diferentes maneras.
Los investigadores también descubrieron algunas otras tendencias fascinantes a través del estudio, que incluyen:
- ChatGPT no siempre reconoce cuando está haciendo matemáticas y comete errores sin sentido, como sumar dos números en un problema de resta o dividir números incorrectamente.
- ChatGPT a menudo proporciona explicaciones para sus respuestas, incluso si son incorrectas. Otras veces, las descripciones de ChatGPT son precisas, pero luego procederá a seleccionar la respuesta de opción múltiple incorrecta.
- ChatGPT a veces inventa hechos. Por ejemplo, al proporcionar una referencia, genera una referencia de aspecto real que está completamente fabricada. La obra y a veces los autores ni siquiera existen.