Skip to main content
  1. Home
  2. Computación
  3. Noticias
  4. News

DT en Español podría recibir una comisión si compras un producto desde el sitio

Los chatbots de IA tienen un 69% de precisión… en el mejor de los casos

Add as a preferred source on Google
Electronics, Mobile Phone, Phone
DTES

Google ha publicado una evaluación directa sobre la fiabilidad real de los chatbots de IA actuales, y las cifras no son nada favorecedoras. Utilizando su recién introducida suite de benchmarks FACTS, la compañía descubrió que incluso los mejores modelos de IA tienen dificultades para superar una tasa de precisión factual del 70%. El equipo de mejor desempeño, Gemini 3 Pro, alcanzó una precisión global del 69%, mientras que otros sistemas líderes de OpenAI, Anthropic y xAI obtuvieron puntuaciones aún más bajas. La conclusión es sencilla e incómoda. Estos chatbots aún fallan aproximadamente en una de cada tres respuestas, incluso cuando parecen seguros haciéndolo.

El benchmark importa porque la mayoría de las pruebas de IA existentes se centran en si un modelo puede completar una tarea, no en si la información que produce es realmente cierta. Para sectores como finanzas, sanidad y derecho, esa brecha puede ser costosa. Una respuesta fluida que suene segura pero contiene errores puede causar un daño real, especialmente cuando los usuarios asumen que el chatbot sabe de lo que habla.

Lo que revela la prueba de precisión de Google

El FACTS Benchmark Suite fue desarrollado por el equipo FACTS de Google junto con Kaggle para probar directamente la precisión factual en cuatro usos reales. Una prueba mide el conocimiento paramétrico, que verifica si un modelo puede responder preguntas basadas en hechos usando solo lo aprendido durante el entrenamiento. Otro evalúa el rendimiento de búsqueda, comprobando cómo los modelos utilizan herramientas web para obtener información precisa. Un tercero se centra en el aterrizamiento, es decir, si el modelo se adhiere a un documento proporcionado sin añadir detalles falsos. La cuarta examina la comprensión multimodal, como leer correctamente gráficos, diagramas e imágenes.

Los resultados muestran diferencias marcadas entre modelos. Gemini 3 Pro lideró la clasificación con un 69% de puntuación FACTS, seguido por Gemini 2.5 Pro y ChatGPT-5 de OpenAI con casi un 62%. Claude 4.5 Opus aterrizó con ~51%, mientras que Grok 4 obtuvo ~54%. Las tareas multimodales fueron el área más débil en general, con una precisión a menudo inferior al 50%. Esto es importante porque estas tareas implican leer gráficos, diagramas o imágenes, donde un chatbot podría leer mal un gráfico de ventas con confianza o extraer el número equivocado de un documento, lo que puede provocar errores fáciles de pasar por alto pero difíciles de deshacer.

Recommended Videos

La conclusión no es que los chatbots sean inútiles, sino que la confianza ciega es arriesgada. Los propios datos de Google sugieren que la IA está mejorando, pero aún necesita verificación, medidas de seguridad y supervisión humana antes de poder ser tratada como una fuente fiable de verdad.

Diego Bastarrica
Diego Bastarrica es Senior Editor y Head of Content en Digital Trends en Español, donde lidera la estrategia editorial, SEO…
Las reseñas engañosas de IA de TripAdvisor pueden arruinar tu viaje
Computer, Electronics, Laptop

Planificar un viaje ya es bastante estresante sin preguntarse si el resumen tan brillante del hotel que acabas de leer fue escrito por una IA que se saltó las partes aterradoras. Resulta que eso podría ser exactamente lo que está ocurriendo en TripAdvisor.

Según una investigación del grupo de consumidores Which?, informada por The Guardian, los resúmenes de reseñas generados por IA por TripAdvisor están suavizando quejas graves de los huéspedes y, en algunos casos, incluso peligrosas.

Read more
Ventas de PC caen en su máximo histórico en los últimos 3 años
Computer Hardware, Electronics, Hardware

Las ventas de computadoras nuevas en Estados Unidos registraron su descenso más pronunciado en casi tres años, una tendencia que los analistas atribuyen directamente al encarecimiento sostenido de los chips de memoria y almacenamiento. De acuerdo con la consultora Omdia, los envíos cayeron a 15,8 millones de unidades durante el primer trimestre de 2026, lo que representa una baja del 7% respecto al mismo período del año anterior y constituye la contracción trimestral más severa desde el tercer trimestre de 2023.

El fenómeno no es exclusivo del mercado estadounidense. Diversos análisis recientes coinciden en que la fuerte demanda de componentes destinados a infraestructura de inteligencia artificial ha disparado los precios de la memoria RAM y las unidades de almacenamiento SSD a nivel global, encareciendo notoriamente el ensamblaje de equipos completos. Según estimaciones de Omdia, entre el primer trimestre de 2025 y la actualidad, el costo de las configuraciones principales de memoria y almacenamiento se ha incrementado entre 90 y 165 dólares por equipo.

Read more
Científicos de IA alertan por un posible “momento Chernóbil” tecnológico
Chernóbil

Varios de los principales investigadores del sector están cada vez más preocupados por un escenario extremo: que un avance descontrolado en inteligencia artificial provoque un daño masivo o incluso una reacción global contra la tecnología. La expresión “momento Chernóbil” aparece como metáfora de un evento catastrófico que cambie para siempre la percepción pública sobre la IA.

La alarma no se basa solo en teorías abstractas. El debate sobre los riesgos existenciales de la IA viene creciendo desde hace años y ha ganado fuerza a medida que los modelos se vuelven más capaces, autónomos y difíciles de auditar por completo. Distintas voces académicas han advertido que una IA general podría tomar decisiones no alineadas con los objetivos humanos si no existen límites claros, supervisión internacional y mecanismos de control efectivos.

Read more