Skip to main content

DT en Español podría recibir una comisión si compras un producto desde el sitio

El último examen de la humanidad: la prueba definitiva que debería dar la IA y aprobar

IA- robot frente a un PC
DTES

Existe consenso entre la comunidad científica de que los modelos de lenguaje de IA (LLM) deben tener mayor precisión para convertirse en verdaderos aportes sociales y así no perjudicar a la humanidad.

Por eso, un grupo de científicos está creando la prueba final para poner a prueba a las diferentes empresas que están detrás de estos sistemas.

Recommended Videos

La prueba definitiva del conocimiento académico con lo que llaman el Último Examen de la Humanidad (HLE). Fue creado para grandes modelos de lenguaje (LLM) —IA entrenadas con inmensos conjuntos de datos, como el infame ChatGPT— y está destinado a dejar perpleja a la IA tanto como sea posible, con el fin de que demuestre que lo sabe todo.

De qué se trata el último examen de la humanidad

La prueba fue creada y llevada a cabo por un equipo de expertos tanto del Centro para la Seguridad de la IA (que trabaja para «reducir los riesgos a escala social de la IA») como de la organización con fines de lucro Scale AI (que se asocia con gigantes tecnológicos en el espacio de la IA para proporcionar datos utilizados para entrenar algoritmos de IA). La evaluación de los resultados de esta prueba, que se describieron en un estudio subido al servidor de preprints arXiv, aún no ha sido revisada por pares.

Los LLM se evalúan en función de su rendimiento con respecto a los puntos de referencia, conjuntos de preguntas que cubren diferentes materias, desde matemáticas hasta lingüística y más. Los investigadores animaron a los académicos a presentar las preguntas más difíciles que se les ocurrieran y compilaron estos puntos de referencia a partir de unas 2.700 respuestas. 

En estos momentos, los grandes modelos como GPT, Gemini o DeepSeek solo están llegando a puntuaciones entre 3 a 14% de precisión. Lo que se busca es que para aprobar el examen y tener certificado de una LLM confiable, se obtenga más del 50% en las respuestas.

«HLE es desarrollado globalmente por expertos en la materia y consiste en preguntas de opción múltiple y respuesta corta adecuadas para la calificación automatizada», dijeron los investigadores en el estudio. «Cada pregunta tiene una solución conocida que es inequívoca y fácilmente verificable, pero no se puede responder rápidamente a través de la recuperación en Internet».

Dentro del abanico de materias presentes en la prueba están: 41 por ciento matemáticas, 11 por ciento biología y medicina, 10 por ciento ciencias de la computación, 9 por ciento física, 9 por ciento humanidades y ciencias sociales, 6 por ciento química, 5 por ciento ingeniería y 9 por ciento otros temas. 

Una de las preguntas esenciales del test, por ejemplo, le pregunta a los LLM, que tanta conciencia tienen sobre su propia existencia como IA.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
¿Qué diría Neruda? La poesía creada con IA está superando a la humana
poesia creada ia superando humana poes  a

Un nuevo estudio de investigadores de la Universidad de Pittsburgh acaba de revelar que la IA ahora puede generar poesía que los lectores no solo tienen dificultades para distinguir de los textos escritos por humanos, sino que en realidad prefieren a las obras de poetas legendarios como Shakespeare y Dickinson.

En experimentos con más de 1.600 participantes, los lectores pudieron identificar poemas generados por IA y escritos por humanos solo el 46,6 % de las veces.

Leer más
Con estas funciones de IA volvería a usar Paint y el Bloc de notas
cinco sitios seguros descargar software gratis windows empresario gritando contento anteojos sentado junto mesa cafe regocija

Microsoft
Tus aplicaciones cotidianas de Windows se volverán mucho más inteligentes. Como menciona Microsoft en su blog Windows Insiders, el uso de la aplicación Windows 11 Paint and Notepad mejorará gracias a las nuevas funciones de IA que el gigante tecnológico está agregando para que sea más útil para los usuarios. Todavía se encuentra en las primeras pruebas y no hay información oficial sobre cuándo o si se implementará para todos los usuarios.

Para empezar, la aplicación Bloc de notas para Windows 11, después de obtener una actualización que agregó autocorrección y corrector ortográfico, ahora tiene una nueva capacidad de reescritura que lo ayuda a reescribir el texto resaltado siguiendo las instrucciones que agregue.

Leer más
Linus Torvalds cree que el 90% de la IA es puro marketing
Linus Torvarlds, el creador de Linux

El creador de Linux, Linus Torvalds, no es alguien que se guarde sus opiniones y esta vez le tiró un par de dardos a la IA y su desarrollo durante los últimos 2 años.
El ingeniero de software finlandés se unió recientemente a un evento centrado en el código abierto, donde tuvo un par de cosas que decir sobre la tecnología de IA y los algoritmos "inteligentes".
Torvalds dijo que el estado actual de la tecnología de IA es 90 por ciento marketing y 10 por ciento realidad factual. El desarrollador, ganador del Premio Tecnológico del Milenio de Finlandia por la creación del kernel de Linux, fue entrevistado durante la Cumbre de Código Abierto celebrada en Viena.

El padre de Linux eso sí cree que "los servicios modernos de IA generativa son un desarrollo interesante en la tecnología de aprendizaje automático y que eventualmente cambiarán el mundo". Al mismo tiempo, expresó su insatisfacción con el "ciclo de exageración" que está alimentando demasiadas iniciativas relacionadas con la IA y contribuyendo a las evaluaciones de mercado increíblemente altas de Nvidia.

Leer más