Skip to main content
  1. Home
  2. Computación
  3. Noticias
  4. News

DT en Español podría recibir una comisión si compras un producto desde el sitio

El último examen de la humanidad: la prueba definitiva que debería dar la IA y aprobar

Add as a preferred source on Google
IA- robot frente a un PC
DTES

Existe consenso entre la comunidad científica de que los modelos de lenguaje de IA (LLM) deben tener mayor precisión para convertirse en verdaderos aportes sociales y así no perjudicar a la humanidad.

Por eso, un grupo de científicos está creando la prueba final para poner a prueba a las diferentes empresas que están detrás de estos sistemas.

Recommended Videos

La prueba definitiva del conocimiento académico con lo que llaman el Último Examen de la Humanidad (HLE). Fue creado para grandes modelos de lenguaje (LLM) —IA entrenadas con inmensos conjuntos de datos, como el infame ChatGPT— y está destinado a dejar perpleja a la IA tanto como sea posible, con el fin de que demuestre que lo sabe todo.

De qué se trata el último examen de la humanidad

La prueba fue creada y llevada a cabo por un equipo de expertos tanto del Centro para la Seguridad de la IA (que trabaja para «reducir los riesgos a escala social de la IA») como de la organización con fines de lucro Scale AI (que se asocia con gigantes tecnológicos en el espacio de la IA para proporcionar datos utilizados para entrenar algoritmos de IA). La evaluación de los resultados de esta prueba, que se describieron en un estudio subido al servidor de preprints arXiv, aún no ha sido revisada por pares.

Los LLM se evalúan en función de su rendimiento con respecto a los puntos de referencia, conjuntos de preguntas que cubren diferentes materias, desde matemáticas hasta lingüística y más. Los investigadores animaron a los académicos a presentar las preguntas más difíciles que se les ocurrieran y compilaron estos puntos de referencia a partir de unas 2.700 respuestas. 

En estos momentos, los grandes modelos como GPT, Gemini o DeepSeek solo están llegando a puntuaciones entre 3 a 14% de precisión. Lo que se busca es que para aprobar el examen y tener certificado de una LLM confiable, se obtenga más del 50% en las respuestas.

«HLE es desarrollado globalmente por expertos en la materia y consiste en preguntas de opción múltiple y respuesta corta adecuadas para la calificación automatizada», dijeron los investigadores en el estudio. «Cada pregunta tiene una solución conocida que es inequívoca y fácilmente verificable, pero no se puede responder rápidamente a través de la recuperación en Internet».

Dentro del abanico de materias presentes en la prueba están: 41 por ciento matemáticas, 11 por ciento biología y medicina, 10 por ciento ciencias de la computación, 9 por ciento física, 9 por ciento humanidades y ciencias sociales, 6 por ciento química, 5 por ciento ingeniería y 9 por ciento otros temas. 

Una de las preguntas esenciales del test, por ejemplo, le pregunta a los LLM, que tanta conciencia tienen sobre su propia existencia como IA.

Diego Bastarrica
Diego Bastarrica es Senior Editor y Head of Content en Digital Trends en Español, donde lidera la estrategia editorial, SEO…
Windows 11 lleva años destruyendo silenciosamente tu SSD con la función hibernar
La característica que creías inocente esconde un mecanismo que castiga tu disco sólido con decenas de terabytes de escritura al año — y la mayoría de los usuarios ni lo sabe.
Computer, Electronics, Laptop

Hay procesos que ocurren dentro de tu computador que nunca ves, pero que están teniendo consecuencias muy reales sobre el hardware que compraste. Uno de ellos sucede cada vez que presionas "hibernar" en Windows 11. Parece un gesto pequeño, casi trivial. Pero detrás de esa acción, el sistema operativo ejecuta una operación que, repetida día tras día, puede estar consumiendo silenciosamente la vida útil de tu SSD a un ritmo alarmante.

El problema que nadie te advirtió

Read more
Nvidia asegura haber eliminado el consumo de agua en sus centros de datos 
nvidia-chip

En plena London Climate Week, Nvidia presentó una solución que, según la compañía, resuelve uno de los problemas ambientales más acuciantes de la industria de la inteligencia artificial: el enorme consumo de agua que requieren los centros de datos para mantener sus procesadores a temperatura. La empresa afirma haber logrado una reducción del 100% en el uso de agua gracias a un innovador diseño de enfriamiento líquido de circuito cerrado.

El sistema funciona haciendo circular una mezcla de agua y propilenglicol, similar al líquido anticongelante que se usa en los automóviles, a través de circuitos sellados que operan a 45 grados Celsius. Al tratarse de un circuito completamente cerrado, el agua no se evapora, lo que elimina la necesidad de refrigeración por evaporación, el método que históricamente ha requerido millones de litros de agua por año en instalaciones de gran escala.

Read more
¿Puede una máquina de hielo enfriar una GPU Nvidia RTX?
Máquina de hielo GPU Nvidia RTX

Una máquina de hielo de encimera no es exactamente hardware estándar para PC, pero el YouTuber TrashBench ha demostrado que puede convertirse en un disipador de GPU sorprendentemente eficaz. En un nuevo vídeo, el creador utilizó una máquina de hielo como base para un sistema de refrigeración personalizado para una Nvidia GeForce RTX 3060, y los resultados fueron mucho mejores de lo esperado.

El proyecto se inspiró en otro creador, el Sr. Yeester, que utilizó una máquina de hielo para enfriar una CPU. TrashBench llevó el concepto en una dirección diferente al intentar enfriar una tarjeta gráfica con la propia máquina, en lugar de simplemente echar hielo en un bucle.

Read more