Skip to main content
  1. Home
  2. Computación
  3. Noticias
  4. News

DT en Español podría recibir una comisión si compras un producto desde el sitio

El último examen de la humanidad: la prueba definitiva que debería dar la IA y aprobar

IA- robot frente a un PC
DTES

Existe consenso entre la comunidad científica de que los modelos de lenguaje de IA (LLM) deben tener mayor precisión para convertirse en verdaderos aportes sociales y así no perjudicar a la humanidad.

Por eso, un grupo de científicos está creando la prueba final para poner a prueba a las diferentes empresas que están detrás de estos sistemas.

Recommended Videos

La prueba definitiva del conocimiento académico con lo que llaman el Último Examen de la Humanidad (HLE). Fue creado para grandes modelos de lenguaje (LLM) —IA entrenadas con inmensos conjuntos de datos, como el infame ChatGPT— y está destinado a dejar perpleja a la IA tanto como sea posible, con el fin de que demuestre que lo sabe todo.

De qué se trata el último examen de la humanidad

La prueba fue creada y llevada a cabo por un equipo de expertos tanto del Centro para la Seguridad de la IA (que trabaja para «reducir los riesgos a escala social de la IA») como de la organización con fines de lucro Scale AI (que se asocia con gigantes tecnológicos en el espacio de la IA para proporcionar datos utilizados para entrenar algoritmos de IA). La evaluación de los resultados de esta prueba, que se describieron en un estudio subido al servidor de preprints arXiv, aún no ha sido revisada por pares.

Los LLM se evalúan en función de su rendimiento con respecto a los puntos de referencia, conjuntos de preguntas que cubren diferentes materias, desde matemáticas hasta lingüística y más. Los investigadores animaron a los académicos a presentar las preguntas más difíciles que se les ocurrieran y compilaron estos puntos de referencia a partir de unas 2.700 respuestas. 

En estos momentos, los grandes modelos como GPT, Gemini o DeepSeek solo están llegando a puntuaciones entre 3 a 14% de precisión. Lo que se busca es que para aprobar el examen y tener certificado de una LLM confiable, se obtenga más del 50% en las respuestas.

«HLE es desarrollado globalmente por expertos en la materia y consiste en preguntas de opción múltiple y respuesta corta adecuadas para la calificación automatizada», dijeron los investigadores en el estudio. «Cada pregunta tiene una solución conocida que es inequívoca y fácilmente verificable, pero no se puede responder rápidamente a través de la recuperación en Internet».

Dentro del abanico de materias presentes en la prueba están: 41 por ciento matemáticas, 11 por ciento biología y medicina, 10 por ciento ciencias de la computación, 9 por ciento física, 9 por ciento humanidades y ciencias sociales, 6 por ciento química, 5 por ciento ingeniería y 9 por ciento otros temas. 

Una de las preguntas esenciales del test, por ejemplo, le pregunta a los LLM, que tanta conciencia tienen sobre su propia existencia como IA.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
 Adobe abre sus herramientas profesionales a ChatGPT
Adult, Female, Person

En un movimiento que representa uno de los hitos más significativos en la convergencia entre grandes plataformas de software creativo e inteligencia artificial conversacional, Adobe ha anunciado que sus aplicaciones emblemáticas Photoshop, Acrobat y Adobe Express ahora están completamente integradas y accesibles directamente desde ChatGPT. A partir de hoy, usuarios de la plataforma de OpenAI pueden acceder a estas poderosas herramientas sin necesidad de abandonar la interfaz de conversación, transformando lo que era un asistente de texto en un entorno integrado de creación y productividad.​

La integración técnica detrás de esta alianza es particularmente sofisticada y merece atención. Adobe ha aprovechado el Model Context Protocol (MCP), el estándar abierto recientemente liberado por OpenAI, para crear una conexión fluida entre sus aplicaciones y ChatGPT. Este protocolo actúa como un intermediario inteligente que permite que ChatGPT no solamente conversar sobre diseño o edición, sino que realmente pueda ejecutar cambios en tiempo real dentro de Photoshop, generar documentos PDF desde Acrobat, e iniciar proyectos creativos en Adobe Express.​

Read more
El Core Ultra X9 388H de Intel iguala lo mejor de AMD en filtraciones
Computer Hardware, Electronics, Hardware

Intel parece estar finalmente lista para intercambiar golpes con los chips móviles más rápidos de AMD de nuevo. Acaban de filtrarse nuevos indicadores para el próximo Core Ultra X9 388H – parte de la familia "Panther Lake" – y las cifras son sorprendentemente sólidas.

Aunque esto solo fue una muestra de ingeniería, ya iguala la velocidad de núcleo único de los procesadores "Strix Halo" de gama alta de AMD y muestra un salto notable en potencia multinúcleo respecto a la gama actual de Intel.

Read more
OpenAI lanza sus primeros cursos certificados
Furniture, Table, Desk

OpenAI presenta dos nuevos cursos que brindarán habilidades prácticas de inteligencia artificial (IA), según la propia compañía. “IA Foundations” se lanza en ChatGPT por medio de programas piloto con un grupo de empleadores líderes y socios del sector público, en tanto que “ChatGPT Foundations for Teachers” ya está disponible en Coursera.

La compañía recuerda que el pasado septiembre expuso su visión para ampliar las oportunidades económicas mediante las nuevas OpenAI Certifications y las iniciativas OpenAI Jobs Platform.

Read more