Skip to main content
  1. Home
  2. Computación
  3. Noticias
  4. News

DT en Español podría recibir una comisión si compras un producto desde el sitio

Los chatbots de IA tienen un 69% de precisión… en el mejor de los casos

Add as a preferred source on Google
Electronics, Mobile Phone, Phone
DTES

Google ha publicado una evaluación directa sobre la fiabilidad real de los chatbots de IA actuales, y las cifras no son nada favorecedoras. Utilizando su recién introducida suite de benchmarks FACTS, la compañía descubrió que incluso los mejores modelos de IA tienen dificultades para superar una tasa de precisión factual del 70%. El equipo de mejor desempeño, Gemini 3 Pro, alcanzó una precisión global del 69%, mientras que otros sistemas líderes de OpenAI, Anthropic y xAI obtuvieron puntuaciones aún más bajas. La conclusión es sencilla e incómoda. Estos chatbots aún fallan aproximadamente en una de cada tres respuestas, incluso cuando parecen seguros haciéndolo.

El benchmark importa porque la mayoría de las pruebas de IA existentes se centran en si un modelo puede completar una tarea, no en si la información que produce es realmente cierta. Para sectores como finanzas, sanidad y derecho, esa brecha puede ser costosa. Una respuesta fluida que suene segura pero contiene errores puede causar un daño real, especialmente cuando los usuarios asumen que el chatbot sabe de lo que habla.

Lo que revela la prueba de precisión de Google

El FACTS Benchmark Suite fue desarrollado por el equipo FACTS de Google junto con Kaggle para probar directamente la precisión factual en cuatro usos reales. Una prueba mide el conocimiento paramétrico, que verifica si un modelo puede responder preguntas basadas en hechos usando solo lo aprendido durante el entrenamiento. Otro evalúa el rendimiento de búsqueda, comprobando cómo los modelos utilizan herramientas web para obtener información precisa. Un tercero se centra en el aterrizamiento, es decir, si el modelo se adhiere a un documento proporcionado sin añadir detalles falsos. La cuarta examina la comprensión multimodal, como leer correctamente gráficos, diagramas e imágenes.

Los resultados muestran diferencias marcadas entre modelos. Gemini 3 Pro lideró la clasificación con un 69% de puntuación FACTS, seguido por Gemini 2.5 Pro y ChatGPT-5 de OpenAI con casi un 62%. Claude 4.5 Opus aterrizó con ~51%, mientras que Grok 4 obtuvo ~54%. Las tareas multimodales fueron el área más débil en general, con una precisión a menudo inferior al 50%. Esto es importante porque estas tareas implican leer gráficos, diagramas o imágenes, donde un chatbot podría leer mal un gráfico de ventas con confianza o extraer el número equivocado de un documento, lo que puede provocar errores fáciles de pasar por alto pero difíciles de deshacer.

Recommended Videos

La conclusión no es que los chatbots sean inútiles, sino que la confianza ciega es arriesgada. Los propios datos de Google sugieren que la IA está mejorando, pero aún necesita verificación, medidas de seguridad y supervisión humana antes de poder ser tratada como una fuente fiable de verdad.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Nvidia despliega su más poderosa arquitectura de procesamiento: Vera Rubin
Performer, Person, Solo Performance

Durante el inicio de CES 2026, el fabricante de chips estadounidense Nvidia dio a conocer la arquitectura Vera Rubin, descrita por su director ejecutivo, Jensen Huang, como la solución más avanzada disponible actualmente en hardware de inteligencia artificial. Este nuevo sistema ya se encuentra en producción a escala completa y espera expandir su capacidad de manufactura durante el segundo semestre del año.

Huang explicó que la arquitectura Rubin fue concebida para resolver uno de los desafíos más acuciantes de la industria: el extraordinario aumento en la demanda de poder computacional requerido por los modelos de inteligencia artificial contemporáneos. Con respecto a su disponibilidad, confirmó que esta tecnología ya se fabrica en volumen y seguirá incrementándose su producción.

Read more
AMD amplía su liderazgo en IA con nuevos Ryzen y AMD ROCm en CES 2026
Computer, Electronics, Pc

Durante el CES 2026, AMD presentó su última generación de procesadores móviles y de escritorio que redefinen la computación para clientes, trayendo capacidades de IA ampliadas, rendimiento de gaming premium y funciones listas para el entorno comercial. La empresa anunció una serie completa de soluciones que posicionan a AMD como líder en la era de las PC impulsadas por IA.

Los nuevos procesadores Ryzen AI Serie 400 y Ryzen AI PRO Serie 400 ofrecen hasta 60 TOPS de cómputo en la NPU, construidos sobre la avanzada arquitectura "Zen 5" y potenciados por NPUs AMD XDNA 2 de segunda generación. Estos procesadores están diseñados específicamente para PCs Copilot+ de consumo y comerciales, con hasta 12 núcleos de CPU de alto rendimiento, gráficos integrados AMD Radeon Serie 800M y velocidades de memoria más rápidas. La Ryzen AI PRO Serie 400 está diseñada específicamente para entornos empresariales con seguridad multicapa y gestión simplificada.

Read more
Intel Core Ultra Series 3 debuta como el primer procesador fabricado en 18A
Crowd, Person, Audience

Intel ha presentado en CES 2026 los procesadores Intel Core Ultra Serie 3, la primera plataforma de computación fabricada con la tecnología de proceso Intel 18A, el proceso de semiconductores más avanzado jamás desarrollado y fabricado en los Estados Unidos. Esta es la plataforma de PC con IA de más amplia adopción que Intel ha ofrecido jamás, impulsando más de 200 diseños de partners a nivel mundial.

Los nuevos procesadores Intel Core Ultra X9 y X7 están equipados con los gráficos integrados Intel Arc de más alto rendimiento. Están diseñados específicamente para usuarios multitarea que gestionan cargas de trabajo avanzadas como gaming, creación y productividad sobre la marcha. Los modelos de gama alta cuentan con hasta 16 núcleos de CPU, 12 núcleos Xe y 50 TOPS de NPU, ofreciendo hasta un 60% más de rendimiento multihilo comparado con Lunar Lake, así como un rendimiento más veloz en juegos con más de un 77% de desempeño mejorado.

Read more