Skip to main content
  1. Home
  2. Computación
  3. Noticias
  4. News

DT en Español podría recibir una comisión si compras un producto desde el sitio

Los chatbots de IA tienen un 69% de precisión… en el mejor de los casos

Electronics, Mobile Phone, Phone
DTES

Google ha publicado una evaluación directa sobre la fiabilidad real de los chatbots de IA actuales, y las cifras no son nada favorecedoras. Utilizando su recién introducida suite de benchmarks FACTS, la compañía descubrió que incluso los mejores modelos de IA tienen dificultades para superar una tasa de precisión factual del 70%. El equipo de mejor desempeño, Gemini 3 Pro, alcanzó una precisión global del 69%, mientras que otros sistemas líderes de OpenAI, Anthropic y xAI obtuvieron puntuaciones aún más bajas. La conclusión es sencilla e incómoda. Estos chatbots aún fallan aproximadamente en una de cada tres respuestas, incluso cuando parecen seguros haciéndolo.

El benchmark importa porque la mayoría de las pruebas de IA existentes se centran en si un modelo puede completar una tarea, no en si la información que produce es realmente cierta. Para sectores como finanzas, sanidad y derecho, esa brecha puede ser costosa. Una respuesta fluida que suene segura pero contiene errores puede causar un daño real, especialmente cuando los usuarios asumen que el chatbot sabe de lo que habla.

Lo que revela la prueba de precisión de Google

El FACTS Benchmark Suite fue desarrollado por el equipo FACTS de Google junto con Kaggle para probar directamente la precisión factual en cuatro usos reales. Una prueba mide el conocimiento paramétrico, que verifica si un modelo puede responder preguntas basadas en hechos usando solo lo aprendido durante el entrenamiento. Otro evalúa el rendimiento de búsqueda, comprobando cómo los modelos utilizan herramientas web para obtener información precisa. Un tercero se centra en el aterrizamiento, es decir, si el modelo se adhiere a un documento proporcionado sin añadir detalles falsos. La cuarta examina la comprensión multimodal, como leer correctamente gráficos, diagramas e imágenes.

Los resultados muestran diferencias marcadas entre modelos. Gemini 3 Pro lideró la clasificación con un 69% de puntuación FACTS, seguido por Gemini 2.5 Pro y ChatGPT-5 de OpenAI con casi un 62%. Claude 4.5 Opus aterrizó con ~51%, mientras que Grok 4 obtuvo ~54%. Las tareas multimodales fueron el área más débil en general, con una precisión a menudo inferior al 50%. Esto es importante porque estas tareas implican leer gráficos, diagramas o imágenes, donde un chatbot podría leer mal un gráfico de ventas con confianza o extraer el número equivocado de un documento, lo que puede provocar errores fáciles de pasar por alto pero difíciles de deshacer.

Recommended Videos

La conclusión no es que los chatbots sean inútiles, sino que la confianza ciega es arriesgada. Los propios datos de Google sugieren que la IA está mejorando, pero aún necesita verificación, medidas de seguridad y supervisión humana antes de poder ser tratada como una fuente fiable de verdad.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
OpenAI desmiente que la publicidad ya haya aparecido en ChatGPT
Computer, Electronics, Laptop

Nick Turley, líder de ChatGPT en OpenAI, respondió públicamente a crecientes especulaciones sobre la integración de anuncios dentro de la plataforma, proporcionando una aclaración que, paradójicamente, no resuelve completamente las dudas sobre la dirección futura de la compañía. En una publicación en X (anteriormente Twitter), Turley declaró categóricamente que "no hay pruebas en vivo de anuncios" y que "cualquier captura de pantalla que hayas visto no es real o no representa anuncios".

Esta declaración surgió después de que Benjamin De Kraker, un exempleado de xAI, compartiera una imagen mostrando una opción para comprar en Target directamente dentro de una conversación con ChatGPT. La captura generó considerable especulación en línea sobre un posible cambio de modelo comercial. Sin embargo, Daniel McAuley de OpenAI argumentó que se trataba simplemente de una integración de aplicaciones que la compañía había anunciado públicamente en octubre, no de publicidad tradicional. Más tarde, Mark Chen, Chief Research Officer de OpenAI, añadió un matiz importante: reconoció que en este caso específico "no cumplieron adecuadamente" y que "cualquier cosa que parezca un anuncio necesita ser manejada con cuidado".

Read more
Windows 11 gran actualización de diciembre: todo lo nuevo que llega
Windows 11

Este martes 9 de diciembre de 2025, se espera que Microsoft comience a lanzar la última actualización Patch Tuesday de 2025 para Windows 11, que introduce varias funciones significativas, mejoras y correcciones de errores.

En esta actualización, la empresa finalmente está corrigiendo las inconsistencias de diseño entre el menú de Inicio y la Búsqueda de Windows, y una versión actualizada del Explorador de Archivos aporta mejoras en el modo oscuro.

Read more
Moore Threads: así es la alternativa china a Nvidia que explota en la bolsa
Electronics, Hardware, Computer

En un evento que subraya la aceleración de la carrera tecnológica entre Oriente y Occidente, Moore Threads ha protagonizado uno de los debuts bursátiles más espectaculares en la historia del mercado de Shanghai, con sus acciones disparándose más del 500% en su primer día de cotización. La empresa de diseño de chips ha alcanzado una capitalización de mercado de 305.000 millones de yuanes (aproximadamente 42.000 millones de dólares), convirtiéndose en la cuarta compañía más valiosa en el segmento STAR del intercambio chino.

El evento de cotización fue expeditado por la Comisión Reguladora de Valores de China en apenas cuatro meses, un tiempo récord que contrasta dramaticamente con los 470 días de promedio regulatorio habitual. Este aceleramiento refleja la urgencia estatal por consolidar una alternativa doméstica viable a la supremacía tecnológica de NVIDIA, especialmente frente a los bloqueos comerciales estadounidenses que desde 2023 han incluido a Moore Threads en listas negras de exportación.

Read more