Skip to main content
  1. Home
  2. Computación
  3. Noticias
  4. News

DT en Español podría recibir una comisión si compras un producto desde el sitio

Los chatbots de IA tienen un 69% de precisión… en el mejor de los casos

Add as a preferred source on Google
Electronics, Mobile Phone, Phone
DTES

Google ha publicado una evaluación directa sobre la fiabilidad real de los chatbots de IA actuales, y las cifras no son nada favorecedoras. Utilizando su recién introducida suite de benchmarks FACTS, la compañía descubrió que incluso los mejores modelos de IA tienen dificultades para superar una tasa de precisión factual del 70%. El equipo de mejor desempeño, Gemini 3 Pro, alcanzó una precisión global del 69%, mientras que otros sistemas líderes de OpenAI, Anthropic y xAI obtuvieron puntuaciones aún más bajas. La conclusión es sencilla e incómoda. Estos chatbots aún fallan aproximadamente en una de cada tres respuestas, incluso cuando parecen seguros haciéndolo.

El benchmark importa porque la mayoría de las pruebas de IA existentes se centran en si un modelo puede completar una tarea, no en si la información que produce es realmente cierta. Para sectores como finanzas, sanidad y derecho, esa brecha puede ser costosa. Una respuesta fluida que suene segura pero contiene errores puede causar un daño real, especialmente cuando los usuarios asumen que el chatbot sabe de lo que habla.

Lo que revela la prueba de precisión de Google

El FACTS Benchmark Suite fue desarrollado por el equipo FACTS de Google junto con Kaggle para probar directamente la precisión factual en cuatro usos reales. Una prueba mide el conocimiento paramétrico, que verifica si un modelo puede responder preguntas basadas en hechos usando solo lo aprendido durante el entrenamiento. Otro evalúa el rendimiento de búsqueda, comprobando cómo los modelos utilizan herramientas web para obtener información precisa. Un tercero se centra en el aterrizamiento, es decir, si el modelo se adhiere a un documento proporcionado sin añadir detalles falsos. La cuarta examina la comprensión multimodal, como leer correctamente gráficos, diagramas e imágenes.

Los resultados muestran diferencias marcadas entre modelos. Gemini 3 Pro lideró la clasificación con un 69% de puntuación FACTS, seguido por Gemini 2.5 Pro y ChatGPT-5 de OpenAI con casi un 62%. Claude 4.5 Opus aterrizó con ~51%, mientras que Grok 4 obtuvo ~54%. Las tareas multimodales fueron el área más débil en general, con una precisión a menudo inferior al 50%. Esto es importante porque estas tareas implican leer gráficos, diagramas o imágenes, donde un chatbot podría leer mal un gráfico de ventas con confianza o extraer el número equivocado de un documento, lo que puede provocar errores fáciles de pasar por alto pero difíciles de deshacer.

Recommended Videos

La conclusión no es que los chatbots sean inútiles, sino que la confianza ciega es arriesgada. Los propios datos de Google sugieren que la IA está mejorando, pero aún necesita verificación, medidas de seguridad y supervisión humana antes de poder ser tratada como una fuente fiable de verdad.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
ChatGPT da el tiro de gracia a GPT-4o, GPT-4.1, GPT-4.1 mini y o4-mini
ChatGPT

Una importante reducción de modelos hará desde el 13 de febrero la gente de OpenAI en ChatGPT, ya que el popular chatbot  pronto descontinuará varios de los modelos GPT.

En dos semanas OpenAI eliminará los modelos GPT-4o, GPT-4.1, GPT-4.1 mini y OpenAI o4-mini de ChatGPT. La retirada de estos modelos antiguos probablemente no afectará a la mayoría de los usuarios, ya que OpenAI afirma que la mayoría de los usuarios han pasado a GPT-5.2 (y que GPT-4o solo lo usa el 0,1 por ciento de los usuarios a diario).

Read more
Windows 11 sumaría una barra superior al estilo macOS gracias a PowerToys
Computer, Electronics, Pc

Microsoft está probando un cambio llamativo en la interfaz de Windows 11: una barra de menú superior opcional, similar a la de macOS o algunas distribuciones de Linux. La idea surge desde el equipo de PowerToys, la suite de herramientas avanzadas para usuarios de Windows, que trabaja en un nuevo componente llamado Command Palette Dock.

Según los primeros detalles publicados por la propia Microsoft y recogidos por medios especializados, el dock funcionaría como una franja permanente en el borde de la pantalla —por defecto, en la parte superior— que mostraría información del sistema y accesos directos a herramientas y comandos. La propuesta contempla también la posibilidad de ubicarla en los laterales o en la parte inferior, según prefiera cada usuario.

Read more
Anthropic enfrenta multimillonaria demanda por piratería musical
Pirata

La empresa de inteligencia artificial Anthropic, creadora del popular modelo de lenguaje Claude, se encuentra en el ojo del huracán tras una nueva demanda presentada por los principales sellos discográficos del mundo. Universal Music Publishing Group, Concord Music Group y ABKCO acusaron formalmente a la compañía de utilizar más de 20 mil canciones protegidas por derechos de autor sin autorización para entrenar sus modelos de IA.

Según el documento legal presentado el pasado 28 de enero ante los tribunales de California, Anthropic descargó intencionalmente millones de archivos mediante BitTorrent desde sitios de piratería como LibGen y PiLiMi, incluyendo composiciones musicales y partituras pertenecientes a artistas consagrados como The Rolling Stones, Neil Diamond, Elton John y Coldplay, entre muchos otros.

Read more