Samsung fue una de las primeras marcas que comenzó con la implementación de IA de manera nativa en sus teléfonos con su sistema Galaxy AI. Por eso, ahora ha lanzado su propia herramienta de evaluación comparativa del rendimiento de IA llamada TRUEBench.
La marca coreana anunció que ha desarrollado su propia herramienta de evaluación comparativa de IA llamada Trustworthy Real-world Usage Evaluation Benchmark (TRUEBench). Es un punto de referencia patentado y fue desarrollado por Samsung Research después de que la compañía encontrara brechas en las herramientas de evaluación comparativa de IA existentes.
Samsung dice que la mayoría de las herramientas existentes solo se enfocan en inglés y se limitan a estructuras de preguntas y respuestas de un solo turno.

Samsung dice que TRUEBench tiene pruebas que incorporan diversos escenarios de diálogo y condiciones multilingües. Basado en su uso interno de IA para la productividad, el punto de referencia evalúa el rendimiento de la IA en función de diez de las tareas empresariales más utilizadas, como la generación de contenido, el análisis de datos, el resumen de texto y la traducción.
Tiene 2.485 conjuntos de pruebas repartidos en 10 categorías, 46 subcategorías y 12 idiomas. Prueba lo que los modelos de IA pueden resolver realmente y tiene conjuntos de pruebas que van desde 8 caracteres hasta más de 20,000 caracteres, lo que refleja tareas que van desde las simples hasta el resumen de documentos largos.
Se afirma que TRUEBench tiene un sistema de puntuación confiable, gracias a un sistema de evaluación automática impulsado por IA que fue diseñado y refinado en colaboración por IA y humanos. Sus muestras de datos y tableros de liderazgo están disponibles en Hugging Face, que es una plataforma de código abierto. Permite a las personas probar hasta cinco modelos de IA y compararlos para determinar su rendimiento y eficiencia.
Paul (Kyungwhoon) Cheun, CTO de la División DX de Samsung Electronics y Jefe de Samsung Research, dijo: “Samsung Research aporta una profunda experiencia y una ventaja competitiva a través de su experiencia de IA en el mundo real. Esperamos que TRUEBench establezca estándares de evaluación para la productividad y solidifique el liderazgo tecnológico de Samsung”.