Skip to main content

DeepSeek coder: qué es y cómo funciona

DeepSeek
DTES

¿Cómo se construye el modelo de lenguaje de DeepSeek?, ¿Necesita cierta capacidad de GPU para desarrollarse? y ¿Cómo le va contra la competencia?.

Bueno, comencemos por una definición del DeepSeek coder: DeepSeek-Coder-V2 es un modelo de lenguaje de código abierto Mixture-of-Experts (MoE) que logra un rendimiento comparable al de GPT4-Turbo en tareas específicas de código.

Recommended Videos

En concreto, DeepSeek-Coder-V2 se entrena previamente desde un punto de control intermedio de DeepSeek-V2 con 6 billones de tokens adicionales. A través de este entrenamiento previo continuo, DeepSeek-Coder-V2 mejora sustancialmente las capacidades de codificación y razonamiento matemático de DeepSeek-V2, al tiempo que mantiene un rendimiento comparable en tareas generales del lenguaje. 

DeepSeek Coder comprende una serie de modelos de lenguaje de código entrenados desde cero con un 87 % de código y un 13 % de lenguaje natural en inglés y chino, con cada modelo pre entrenado en tokens 2T. Proporcionamos varios tamaños del modelo de código, que van desde las versiones 1B hasta 33B.

«Cada modelo se entrena previamente en un corpus de código a nivel de repositorio mediante el empleo de un tamaño de ventana de 16K y una tarea adicional de rellenar los espacios en blanco, lo que da como resultado modelos fundamentales (DeepSeek-Coder-Base). Ajustamos aún más el modelo base con 2 mil millones de tokens de datos de instrucción para obtener modelos ajustados a la instrucción, denominados DeepSeek-Coder-Instruct», dicen en DeepSeek.

  • Entrenado previamente en 2 billones de tokens en más de 80 lenguajes de programación.
  • Varios tamaños de modelo (1.3B5.7B6.7B y 33B) para cumplir con diferentes requisitos.
  • Un tamaño de ventana de 16K, que admite la finalización y el relleno de código a nivel de proyecto.
  • Rendimiento de última generación entre modelos de código abierto.
  • Código abierto y gratuito para investigación y uso comercial.

En su sitio de GitHub, DeepSeek afirma que  «Si desea utilizar DeepSeek-Coder-V2 en formato BF16 para la inferencia, se requieren GPU de 80 GB*8».

Rendimiento de DeepSeek coder

En las evaluaciones de referencia estándar, y según ellos mismos muestran, DeepSeek-Coder-V2 logra un rendimiento superior en comparación con los modelos de código cerrado como GPT4-Turbo, Claude 3 Opus y Gemini 1.5 Pro en las pruebas comparativas de codificación y matemáticas:

Imagen utilizada con permiso del titular de los derechos de autor

«DeepSeek-Coder-V2 demuestra avances significativos en varios aspectos de las tareas relacionadas con el código, así como en el razonamiento y las capacidades generales. Además, DeepSeek-Coder-V2 amplía su compatibilidad con lenguajes de programación de 86 a 338, al tiempo que amplía la longitud del contexto de 16K a 128K», dice la compañía china.

ACÁ EL CÓDIGO EN GITHUB DE DEEPSEEK

ACÁ EL CÓDIGO EN GITHUB DE DEEPSEEK
Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Steam dice que no fue hackeado y que tu cuenta está a salvo
Steam

Ayer, se conoció la noticia de que más de 89 millones de cuentas de Steam se habían puesto a la venta en la web oscura, lo que llevó a los usuarios a apresurarse a cambiar sus contraseñas. Steam dice que eso es falso y que no tienes que preocuparte por tu cuenta. Aunque hubo una fuga, no fue una que comprometiera la seguridad de la biblioteca de juegos de su PC.

Steam dice que, aunque se produjo una fuga, no fue una violación de los sistemas de Steam. "Todavía estamos indagando en la fuente de la filtración, que se ve agravada por el hecho de que los mensajes SMS no están cifrados en tránsito y se enrutan a través de múltiples proveedores en el camino a su teléfono", se lee en el anuncio.

Leer más
Una nueva función de Minecraft significa que no tendrás que matar tantos cerdos
Minecraft

La próxima actualización de Minecraft agrega características que faltaban desde hace mucho tiempo, incluida la capacidad de fabricar sillas de montar y, lo que es más importante, desequiparlas de tus monturas de cerdo sin convertirlas en tocino. Las características vendrán como parte de la segunda actualización importante a finales de este año, pero puede probarlas usted mismo en la instantánea de Java o en la versión beta y previa de Bedrock.

En lugar de pasar todo el tiempo pescando o explorando mazmorras en busca de una sola silla de montar, ahora puedes crear la tuya propia. Solo requiere tres piezas de cuero y un lingote de hierro, y listo, puedes cabalgar hacia la puesta de sol. Los jugadores han podido fabricar armaduras de cuero para caballos desde hace un tiempo, por lo que las sillas de montar parecen el siguiente paso lógico (y uno que ha estado ausente durante casi 16 años). Es mucho menos difícil crear tu propia silla de montar que encontrar una en la naturaleza, por lo que esta es una adición bienvenida.

Leer más
Este video de Youtube es impactante: primera vez que se ve cómo se mueven las placas tectónicas
este video de youtube es impactante primera vez que se ve como mueven las placas tectonicas myanmar tect  nicas

Es posible que el video que está en la portada de este artículo sea primera vez que muestre con tal claridad, el movimiento de las placas tectónicas de la Tierra después del terremoto de magnitud 7,7 que asoló en marzo a Myanmar.

La descripción gráfica de lo que se ve: "La cámara apunta hacia la entrada cerrada de una propiedad y un largo camino de concreto. Unos ocho segundos después, la puerta de metal comienza a vibrar y luego todo comienza a temblar. La puerta se abre, una torre de transmisión distante se dobla y todo el lado derecho de la escena se desliza hacia adelante".

Leer más