Skip to main content
  1. Home
  2. Computación
  3. Noticias
  4. News

DT en Español podría recibir una comisión si compras un producto desde el sitio

Los chatbots de IA tienen un 69% de precisión… en el mejor de los casos

Add as a preferred source on Google
Electronics, Mobile Phone, Phone
DTES

Google ha publicado una evaluación directa sobre la fiabilidad real de los chatbots de IA actuales, y las cifras no son nada favorecedoras. Utilizando su recién introducida suite de benchmarks FACTS, la compañía descubrió que incluso los mejores modelos de IA tienen dificultades para superar una tasa de precisión factual del 70%. El equipo de mejor desempeño, Gemini 3 Pro, alcanzó una precisión global del 69%, mientras que otros sistemas líderes de OpenAI, Anthropic y xAI obtuvieron puntuaciones aún más bajas. La conclusión es sencilla e incómoda. Estos chatbots aún fallan aproximadamente en una de cada tres respuestas, incluso cuando parecen seguros haciéndolo.

El benchmark importa porque la mayoría de las pruebas de IA existentes se centran en si un modelo puede completar una tarea, no en si la información que produce es realmente cierta. Para sectores como finanzas, sanidad y derecho, esa brecha puede ser costosa. Una respuesta fluida que suene segura pero contiene errores puede causar un daño real, especialmente cuando los usuarios asumen que el chatbot sabe de lo que habla.

Lo que revela la prueba de precisión de Google

El FACTS Benchmark Suite fue desarrollado por el equipo FACTS de Google junto con Kaggle para probar directamente la precisión factual en cuatro usos reales. Una prueba mide el conocimiento paramétrico, que verifica si un modelo puede responder preguntas basadas en hechos usando solo lo aprendido durante el entrenamiento. Otro evalúa el rendimiento de búsqueda, comprobando cómo los modelos utilizan herramientas web para obtener información precisa. Un tercero se centra en el aterrizamiento, es decir, si el modelo se adhiere a un documento proporcionado sin añadir detalles falsos. La cuarta examina la comprensión multimodal, como leer correctamente gráficos, diagramas e imágenes.

Los resultados muestran diferencias marcadas entre modelos. Gemini 3 Pro lideró la clasificación con un 69% de puntuación FACTS, seguido por Gemini 2.5 Pro y ChatGPT-5 de OpenAI con casi un 62%. Claude 4.5 Opus aterrizó con ~51%, mientras que Grok 4 obtuvo ~54%. Las tareas multimodales fueron el área más débil en general, con una precisión a menudo inferior al 50%. Esto es importante porque estas tareas implican leer gráficos, diagramas o imágenes, donde un chatbot podría leer mal un gráfico de ventas con confianza o extraer el número equivocado de un documento, lo que puede provocar errores fáciles de pasar por alto pero difíciles de deshacer.

Recommended Videos

La conclusión no es que los chatbots sean inútiles, sino que la confianza ciega es arriesgada. Los propios datos de Google sugieren que la IA está mejorando, pero aún necesita verificación, medidas de seguridad y supervisión humana antes de poder ser tratada como una fuente fiable de verdad.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Estudio confirma la única cosa en la que la IA no puede vencer al humano
Creatividad IA

La IA generativa acaba de superar un nuevo nivel de creatividad, al menos para la persona promedio. Este estudio sobre creatividad en IA comparó resultados de más de 100.000 personas con varios modelos de lenguaje grandes, incluyendo ChatGPT, Claude y Gemini, y encontró que algunos modelos pueden superar a un humano típico en una tarea de creatividad estandarizada.

Pero el techo sigue pareciendo humano. El estudio informa que la mitad más creativa de los participantes superó a todos los modelos de IA probados, y el 10% superior amplió aún más la ventaja.

Read more
Después de la RAM, el almacenamiento hará sufrir tu billetera
Computer Hardware, Electronics, Hardware

Si pensabas que el aumento de los precios de la RAM era duro para tu cartera, el almacenamiento podría ser la siguiente categoría tecnológica en sentirse agotada. Según un informe reciente de Chosun Biz, los principales fabricantes de memorias flash Samsung Electronics y SK hynix planean recortar su producción de NAND en 2026, incluso cuando la demanda de almacenamiento sigue creciendo, especialmente por parte de los clientes de IA y centros de datos.

Ese cambio ha despertado preocupación de que los precios de los SSD, que ya están en tendencia alcista, puedan subir aún más este año. La memoria flash NAND es un ingrediente fundamental en unidades de estado sólido, memorias USB y otros productos de almacenamiento. Por ello, los suministros más compactos pueden afectar tanto a PCs, tabletas como a hardware empresarial. Los analistas afirman que la combinación de las limitaciones de suministro y el cambio de prioridades de producción podría revertir años de caídas constantes en los precios en el mercado de almacenamiento de consumo.

Read more
Satya Nadella: «la IA traerá crecimiento económico en todo el mundo»
Satya Nadella

En el transcurso del Foro Económico Mundial celebrado en Davos, Satya Nadella, CEO de Microsoft, formuló una advertencia fundamental sobre el futuro sostenible de la tecnología de inteligencia artificial a nivel global. El ejecutivo enfatizó que sin aplicaciones prácticas que generen valor tangible para comunidades, sectores económicos y poblaciones enteras, la sociedad retirará su apoyo a las iniciativas de desarrollo en IA.

«Perderemos rápidamente incluso el permiso social para utilizar un recurso escaso como la energía y aplicarlo a la generación de tokens, si estos tokens no mejoran los resultados en salud, educación, eficiencia del sector público y competitividad del sector privado», señaló Nadella durante su intervención. «Ese es, en definitiva, el objetivo fundamental que debemos perseguir».

Read more