Skip to main content
  1. Home
  2. Computación
  3. Noticias
  4. News

DT en Español podría recibir una comisión si compras un producto desde el sitio

El último examen de la humanidad: la prueba definitiva que debería dar la IA y aprobar

Add as a preferred source on Google
IA- robot frente a un PC
DTES

Existe consenso entre la comunidad científica de que los modelos de lenguaje de IA (LLM) deben tener mayor precisión para convertirse en verdaderos aportes sociales y así no perjudicar a la humanidad.

Por eso, un grupo de científicos está creando la prueba final para poner a prueba a las diferentes empresas que están detrás de estos sistemas.

Recommended Videos

La prueba definitiva del conocimiento académico con lo que llaman el Último Examen de la Humanidad (HLE). Fue creado para grandes modelos de lenguaje (LLM) —IA entrenadas con inmensos conjuntos de datos, como el infame ChatGPT— y está destinado a dejar perpleja a la IA tanto como sea posible, con el fin de que demuestre que lo sabe todo.

De qué se trata el último examen de la humanidad

La prueba fue creada y llevada a cabo por un equipo de expertos tanto del Centro para la Seguridad de la IA (que trabaja para «reducir los riesgos a escala social de la IA») como de la organización con fines de lucro Scale AI (que se asocia con gigantes tecnológicos en el espacio de la IA para proporcionar datos utilizados para entrenar algoritmos de IA). La evaluación de los resultados de esta prueba, que se describieron en un estudio subido al servidor de preprints arXiv, aún no ha sido revisada por pares.

Los LLM se evalúan en función de su rendimiento con respecto a los puntos de referencia, conjuntos de preguntas que cubren diferentes materias, desde matemáticas hasta lingüística y más. Los investigadores animaron a los académicos a presentar las preguntas más difíciles que se les ocurrieran y compilaron estos puntos de referencia a partir de unas 2.700 respuestas. 

En estos momentos, los grandes modelos como GPT, Gemini o DeepSeek solo están llegando a puntuaciones entre 3 a 14% de precisión. Lo que se busca es que para aprobar el examen y tener certificado de una LLM confiable, se obtenga más del 50% en las respuestas.

«HLE es desarrollado globalmente por expertos en la materia y consiste en preguntas de opción múltiple y respuesta corta adecuadas para la calificación automatizada», dijeron los investigadores en el estudio. «Cada pregunta tiene una solución conocida que es inequívoca y fácilmente verificable, pero no se puede responder rápidamente a través de la recuperación en Internet».

Dentro del abanico de materias presentes en la prueba están: 41 por ciento matemáticas, 11 por ciento biología y medicina, 10 por ciento ciencias de la computación, 9 por ciento física, 9 por ciento humanidades y ciencias sociales, 6 por ciento química, 5 por ciento ingeniería y 9 por ciento otros temas. 

Una de las preguntas esenciales del test, por ejemplo, le pregunta a los LLM, que tanta conciencia tienen sobre su propia existencia como IA.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Copilot de Microsoft enfrenta una batalla cuesta arriba
Copilot voz

A pesar de los esfuerzos intensivos de Microsoft por integrar su asistente de inteligencia artificial Copilot en prácticamente todos sus productos y servicios, el desempeño de la plataforma en términos de adopción global ha resultado considerablemente decepcionante. De acuerdo con un análisis reciente de SimilarWeb —especialista en medición de tráfico web—, la herramienta de Microsoft ocupa un lugar muy rezagado en la competencia del mercado de herramientas de IA generativa, capturando apenas entre el 1.2 por ciento y el 4.6 por ciento de la cuota de tráfico global, dependiendo de la métrica de medición utilizada.

Esta situación contrasta marcadamente con la posición abrumadora de ChatGPT de OpenAI, que continúa dominando el sector con cuotas que oscilan entre el 68 y el 84.8 por ciento. Google Gemini ha ganado terreno significativamente durante 2025, ascendiendo desde el 5.4 por ciento en enero hasta alcanzar el 18.2 por ciento en diciembre, demostrando un crecimiento explosivo. Entretanto, alternativas más especializadas como Perplexity —motor de búsqueda impulsado por IA— y Claude de Anthropic han establecido su presencia consolidada en segmentos de mercado particulares, dejando a Copilot en una posición incómoda entre los principales competidores.

Read more
ASUS nos revela el secreto que falta en los laptops AI
Computer, Electronics, Laptop

La presencia de ASUS en CES 2026 marcó un punto de inflexión en la industria tecnológica, con un showroom desbordante desde el primer día y un catálogo de productos que busca transformar la forma en que los usuarios interactúan con la inteligencia artificial. Para interiorizarnos más de lo que la marca taiwanesa tiene para este año, hablamos con Sascha Khron, Director of Technical Marketing de ASUS, "nunca habíamos tenido a todos los principales YouTubers y medios en el showroom el primer día. Fue increíble verlos a todos al mismo tiempo."

La empresa ha posicionado tres innovaciones clave: el Zenbook Duo, el Zephyrus Duo, y las nuevas gafas de realidad aumentada desarrolladas en asociación con Xreal. Pero más allá de los dispositivos hardware, la verdadera revolución radica en cómo ASUS aprovecha los NPU para entregar capacidades de IA sin comprometer la autonomía energética de los laptops.

Read more
Word ya no tiene ese problema TAN MOLESTO
Page, Text, Electronics

Microsoft está lanzando una forma nueva, más rápida y eficiente, de añadir hipervínculos en Word. En lugar de seleccionar texto, abrir el cuadro de diálogo Insertar enlace e insertar una URL, los usuarios ahora pueden seleccionar texto y pegar un enlace directamente sobre él; Word lo convierte automáticamente en un hipervínculo.

Tanto si usas el software en un PC/LAPTOP con Windows como en un MacBook, solo tienes que copiar el enlace correspondiente, resaltar una palabra o frase, pulsar Ctrl + V o Cmd + V, y Word se encarga del resto.

Read more