El modelo Orion de próxima generación de ChatGPT de OpenAI, que se rumorea y se niega que llegue a finales de año, puede que no sea todo lo que se ha promocionado una vez que llegue, según un nuevo informe de The Information.
Citando a empleados anónimos de OpenAI, el informe afirma que el modelo Orion ha mostrado una mejora «mucho menor» con respecto a su predecesor GPT-4 que la que GPT-4 mostró con respecto a GPT-3. Esas fuentes también señalan que Orion «no es confiablemente mejor que su predecesor [GPT-4] en el manejo de ciertas tareas», específicamente en aplicaciones de codificación, aunque el nuevo modelo es notablemente más fuerte en las capacidades generales del lenguaje, como resumir documentos o generar correos electrónicos.
The Information cita un «suministro cada vez menor de texto de alta calidad y otros datos» sobre los que entrenar nuevos modelos como un factor importante en las ganancias insustanciales del nuevo modelo. En resumen, la industria de la IA se está encontrando rápidamente con un cuello de botella de datos de entrenamiento, ya que ya ha eliminado las fuentes fáciles de datos de las redes sociales de sitios como X, Facebook y YouTube (este último en dos ocasiones diferentes). Como tal, estas empresas tienen cada vez más dificultades para encontrar el tipo de desafíos de codificación enrevesados que ayudarán a avanzar sus modelos más allá de sus capacidades actuales, lo que ralentiza su capacitación previa al lanzamiento.
Esa reducción de la eficiencia de la formación tiene enormes implicaciones ecológicas y comerciales. A medida que los LLM de clase fronteriza crecen y empujan aún más sus recuentos de parámetros a los billones altos, se espera que la cantidad de energía, agua y otros recursos se multiplique por seis en la próxima década. Esta es la razón por la que estamos viendo que Microsoft intenta reiniciar Three Mile Island, AWS compra una planta de 960 MW y Google compra la producción de siete reactores nucleares, todo para proporcionar la energía necesaria para sus crecientes colecciones de centros de datos de IA: la infraestructura energética actual de la nación simplemente no puede seguir el ritmo.
En respuesta, como informa TechCrunch, OpenAI ha creado un «equipo de fundaciones» para eludir la falta de datos de entrenamiento adecuados. Esas técnicas podrían implicar el uso de datos de entrenamiento sintéticos, como los que puede generar la familia de modelos Nemotron de Nvidia. El equipo también está buscando mejorar el rendimiento del modelo después del entrenamiento.
Ahora se espera que Orion, que originalmente se pensó que era el nombre en clave del GPT-5 de OpenAI, llegue en algún momento de 2025. Queda por ver si tendremos suficiente energía disponible para verlo en acción, sin que se apaginen nuestras redes eléctricas municipales.