Skip to main content

DeepSeek coder: qué es y cómo funciona

DeepSeek
DTES

¿Cómo se construye el modelo de lenguaje de DeepSeek?, ¿Necesita cierta capacidad de GPU para desarrollarse? y ¿Cómo le va contra la competencia?.

Bueno, comencemos por una definición del DeepSeek coder: DeepSeek-Coder-V2 es un modelo de lenguaje de código abierto Mixture-of-Experts (MoE) que logra un rendimiento comparable al de GPT4-Turbo en tareas específicas de código.

Recommended Videos

En concreto, DeepSeek-Coder-V2 se entrena previamente desde un punto de control intermedio de DeepSeek-V2 con 6 billones de tokens adicionales. A través de este entrenamiento previo continuo, DeepSeek-Coder-V2 mejora sustancialmente las capacidades de codificación y razonamiento matemático de DeepSeek-V2, al tiempo que mantiene un rendimiento comparable en tareas generales del lenguaje. 

DeepSeek Coder comprende una serie de modelos de lenguaje de código entrenados desde cero con un 87 % de código y un 13 % de lenguaje natural en inglés y chino, con cada modelo pre entrenado en tokens 2T. Proporcionamos varios tamaños del modelo de código, que van desde las versiones 1B hasta 33B.

«Cada modelo se entrena previamente en un corpus de código a nivel de repositorio mediante el empleo de un tamaño de ventana de 16K y una tarea adicional de rellenar los espacios en blanco, lo que da como resultado modelos fundamentales (DeepSeek-Coder-Base). Ajustamos aún más el modelo base con 2 mil millones de tokens de datos de instrucción para obtener modelos ajustados a la instrucción, denominados DeepSeek-Coder-Instruct», dicen en DeepSeek.

  • Entrenado previamente en 2 billones de tokens en más de 80 lenguajes de programación.
  • Varios tamaños de modelo (1.3B5.7B6.7B y 33B) para cumplir con diferentes requisitos.
  • Un tamaño de ventana de 16K, que admite la finalización y el relleno de código a nivel de proyecto.
  • Rendimiento de última generación entre modelos de código abierto.
  • Código abierto y gratuito para investigación y uso comercial.

En su sitio de GitHub, DeepSeek afirma que  «Si desea utilizar DeepSeek-Coder-V2 en formato BF16 para la inferencia, se requieren GPU de 80 GB*8».

Rendimiento de DeepSeek coder

En las evaluaciones de referencia estándar, y según ellos mismos muestran, DeepSeek-Coder-V2 logra un rendimiento superior en comparación con los modelos de código cerrado como GPT4-Turbo, Claude 3 Opus y Gemini 1.5 Pro en las pruebas comparativas de codificación y matemáticas:

Imagen utilizada con permiso del titular de los derechos de autor

«DeepSeek-Coder-V2 demuestra avances significativos en varios aspectos de las tareas relacionadas con el código, así como en el razonamiento y las capacidades generales. Además, DeepSeek-Coder-V2 amplía su compatibilidad con lenguajes de programación de 86 a 338, al tiempo que amplía la longitud del contexto de 16K a 128K», dice la compañía china.

ACÁ EL CÓDIGO EN GITHUB DE DEEPSEEK

ACÁ EL CÓDIGO EN GITHUB DE DEEPSEEK
Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
¿Qué es RedNote? Todo lo que necesitas saber sobre la alternativa a TikTok
red social RedNote

En Estados Unidos, TikTok podría ser retirado pronto del mercado. En su lugar, muchos usuarios de TikTok están recurriendo preferentemente a una aplicación similar llamada RedNote y otras alternativas.

¿Qué es RedNote (acá versión para Android)y es mejor que TikTok? ¿Podría retirarse también del mercado estadounidense? Tenemos las respuestas.
¿Qué pasa?
TikTok se enfrenta a una posible prohibición en Estados Unidos, principalmente debido a las preocupaciones sobre sus conexiones con China y los riesgos de seguridad nacional asociados. A los funcionarios estadounidenses les preocupa que ByteDance, la empresa matriz china de TikTok, pueda ser requerida por el gobierno chino para proporcionar acceso a los datos de los usuarios estadounidenses, que luego podrían usarse para espionaje o vigilancia. Esta preocupación se ve agravada por una ley china de 2017 que obliga a las empresas a cooperar con las investigaciones de seguridad nacional.

Leer más
OFICIAL: Esta es la Nintendo Switch 2 que podría llegar el 2 de abril
Nintendo Switch 2

Ya es oficial, finalmente Nintendo lanzó el primer teaser tráiler que muestra cómo será la Nintendo Switch 2, después de muchas filtraciones y especificaciones soltadas al aire.

Si bien, se informa oficialmente que estará disponible durante 2025, no hubo ninguna confirmación certera de la fecha, aunque podría ser el próximo 2 de abril, cuando se celebre un Nintendo Direct que estará dedicada a la nueva consola.

Leer más
LinkedIn quiere que no pierdas tiempo y usará IA para filtrar empleos
LinkedIn

Un par de herramientas novedosas está presentando LinkedIn a su comunidad, se trata de funciones de IA que podrán ser utilizadas por los usuarios en búsqueda de empleo, y también las empresas reclutadoras.
Una nueva herramienta de Jobs Match dará a sus 1.000 millones de usuarios, que actualmente están solicitando puestos de trabajo en su plataforma a un ritmo de 9.000 solicitudes por minuto, consejos inmediatos sobre si vale la pena dedicar tiempo a una oferta de trabajo en particular.
Junto a esto, está lanzando un agente de IA de reclutamiento dirigido a empresas más pequeñas, una versión sintética de los gerentes y equipos de reclutamiento que las empresas más grandes suelen usar para diseñar solicitudes de empleo, aprovechar candidatos calificados y clasificar solicitudes. Ambos son de uso "gratuito", es decir, no tienes que ser uno de los usuarios de pago de LinkedIn para usarlo.
Las herramientas que se lanzan hoy, que darán a los que llenan puestos de trabajo un mejor embudo de solicitantes adecuados y ayudarán a los que buscan trabajo a filtrar mejor los trabajos en los que tienen más probabilidades de encajar.

Leer más