La última incursión de Meta en la generación de imágenes de IA es rápida. La compañía presentó su nuevo modelo «3D Gen» el martes, un «canal rápido y de última generación» para transformar el texto de entrada en imágenes 3D de alta fidelidad que pueden generarlas en menos de un minuto.
Además, según se informa, el sistema es capaz de aplicar nuevas texturas y máscaras tanto a las imágenes generadas como a las producidas por los artistas mediante indicaciones de texto.
Según un estudio reciente del equipo de investigación de IA de Meta Gen, 3D Gen no solo ofrecerá texturas de alta resolución y mapas de materiales, sino que también admitirá capacidades de renderizado basado en la física (PBR) y retexturizado generativo.
📣 New research from GenAI at Meta, introducing Meta 3D Gen: A new system for end-to-end generation of 3D assets from text in <1min.
Meta 3D Gen is a new combined AI system that can generate high-quality 3D assets, with both high-resolution textures and material maps end-to-end,… pic.twitter.com/rDD5GzNinY
— AI at Meta (@AIatMeta) July 2, 2024
El equipo estima un tiempo medio de inferencia de sólo 30 segundos en la creación del modelo 3D inicial utilizando el modelo 3D AssetGen de Meta. Luego, los usuarios pueden volver atrás y refinar la textura del modelo existente o reemplazarla con algo nuevo, ambos a través de indicaciones de texto, utilizando Meta 3D TextureGen, un proceso que la compañía calcula que no debería tomar más de 20 segundos adicionales de tiempo de inferencia.
«Al combinar sus fortalezas», escribió el equipo en su resumen del estudio, «3DGen representa objetos 3D simultáneamente de tres maneras: en el espacio de vista, en el espacio volumétrico y en el espacio UV (o textura)». El equipo de Meta estableció su modelo de generación 3D con una serie de líneas de base de la industria y lo comparó con una variedad de factores, incluida la fidelidad del mensaje de texto, la calidad visual, los detalles de las texturas y los artefactos. Al combinar las funciones de ambos modelos, las imágenes generadas por el proceso integrado de dos etapas fueron seleccionadas por los anotadores en lugar de sus contrapartes de una sola etapa el 68% de las veces.
Por supuesto, el sistema discutido en este documento aún está en desarrollo y aún no está listo para el uso público, pero los avances técnicos que ilustra este estudio podrían resultar transformadores en una serie de disciplinas creativas, desde efectos de juegos y películas hasta aplicaciones de realidad virtual.
Dar a los usuarios la capacidad no solo de crear, sino también de editar contenido generado en 3D, de forma rápida e intuitiva, podría reducir drásticamente la barrera de entrada para tales actividades.