Skip to main content
  1. Home
  2. Computación
  3. Noticias
  4. Tendencias
  5. News

DeepSeek coder: qué es y cómo funciona

Add as a preferred source on Google
DeepSeek
DTES

¿Cómo se construye el modelo de lenguaje de DeepSeek?, ¿Necesita cierta capacidad de GPU para desarrollarse? y ¿Cómo le va contra la competencia?.

Bueno, comencemos por una definición del DeepSeek coder: DeepSeek-Coder-V2 es un modelo de lenguaje de código abierto Mixture-of-Experts (MoE) que logra un rendimiento comparable al de GPT4-Turbo en tareas específicas de código.

Recommended Videos

En concreto, DeepSeek-Coder-V2 se entrena previamente desde un punto de control intermedio de DeepSeek-V2 con 6 billones de tokens adicionales. A través de este entrenamiento previo continuo, DeepSeek-Coder-V2 mejora sustancialmente las capacidades de codificación y razonamiento matemático de DeepSeek-V2, al tiempo que mantiene un rendimiento comparable en tareas generales del lenguaje. 

DeepSeek Coder comprende una serie de modelos de lenguaje de código entrenados desde cero con un 87 % de código y un 13 % de lenguaje natural en inglés y chino, con cada modelo pre entrenado en tokens 2T. Proporcionamos varios tamaños del modelo de código, que van desde las versiones 1B hasta 33B.

«Cada modelo se entrena previamente en un corpus de código a nivel de repositorio mediante el empleo de un tamaño de ventana de 16K y una tarea adicional de rellenar los espacios en blanco, lo que da como resultado modelos fundamentales (DeepSeek-Coder-Base). Ajustamos aún más el modelo base con 2 mil millones de tokens de datos de instrucción para obtener modelos ajustados a la instrucción, denominados DeepSeek-Coder-Instruct», dicen en DeepSeek.

  • Entrenado previamente en 2 billones de tokens en más de 80 lenguajes de programación.
  • Varios tamaños de modelo (1.3B5.7B6.7B y 33B) para cumplir con diferentes requisitos.
  • Un tamaño de ventana de 16K, que admite la finalización y el relleno de código a nivel de proyecto.
  • Rendimiento de última generación entre modelos de código abierto.
  • Código abierto y gratuito para investigación y uso comercial.

En su sitio de GitHub, DeepSeek afirma que  «Si desea utilizar DeepSeek-Coder-V2 en formato BF16 para la inferencia, se requieren GPU de 80 GB*8».

Rendimiento de DeepSeek coder

En las evaluaciones de referencia estándar, y según ellos mismos muestran, DeepSeek-Coder-V2 logra un rendimiento superior en comparación con los modelos de código cerrado como GPT4-Turbo, Claude 3 Opus y Gemini 1.5 Pro en las pruebas comparativas de codificación y matemáticas:

Imagen utilizada con permiso del titular de los derechos de autor

«DeepSeek-Coder-V2 demuestra avances significativos en varios aspectos de las tareas relacionadas con el código, así como en el razonamiento y las capacidades generales. Además, DeepSeek-Coder-V2 amplía su compatibilidad con lenguajes de programación de 86 a 338, al tiempo que amplía la longitud del contexto de 16K a 128K», dice la compañía china.

ACÁ EL CÓDIGO EN GITHUB DE DEEPSEEK

ACÁ EL CÓDIGO EN GITHUB DE DEEPSEEK
Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Microsoft Paint usa IA para una función que realmente no necesitamos
Animal, Bear, Mammal

Microsoft continúa expandiendo capacidades de inteligencia artificial en sus aplicaciones nativas de Windows. El equipo de desarrolladores anunció que Paint recibiría una funcionalidad inédita denominada Coloring Book (Libro para colorear), disponible en versión preliminar para usuarios del programa Windows Insider.

La característica funciona mediante generación de imágenes impulsada por inteligencia artificial. Los usuarios ingresan descripciones textuales del contenido deseado —por ejemplo, "un gato esponjoso y lindo sobre una dona" o "una casa con jardín y cerca"—, y el sistema crea automáticamente entre cuatro diseños diferentes de páginas para colorear en blanco y negro, listas para imprimir o editar digitalmente.

Read more
Cuándo puedes comprar el Ryzen 7 9850X3D de AMD y cuánto costará
Electronics, Hardware, Computer Hardware

AMD finalmente ha confirmado el precio y la disponibilidad de su procesador Ryzen 7 9850X3D, el nuevo procesador de escritorio casi de tope de gama de la compañía, dirigido a entusiastas de los videojuegos. El chip se lanzará oficialmente el 29 de enero con un precio de venta recomendado de aproximadamente 499 dólares estadounidenses, según el último anuncio de AMD.

https://twitter.com/McAfeeDavid_AMD/status/2014352353827099091?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E2014352353827099091%7Ctwgr%5E40b3b67d1eeb798c14f35666d30958526d180637%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.digitaltrends.com%2Fcomputing%2Famd-ryzen-7-9850x3d-gets-price-and-release-date%2F

Read more
El nuevo Chromebook 311 de Acer ofrece una configuración de grado militar
Face, Head, Person

Acer ha lanzado dos nuevos Chromebooks dirigidos principalmente a estudiantes: el Acer Chromebook 311 (C725) y el Acer Chromebook Spin 311 (R725T). Estos portátiles están diseñados para aulas de K-12 y entornos institucionales, donde la durabilidad, el bajo mantenimiento y el rendimiento fiable importan más que las especificaciones llamativas.

Ambos modelos cuentan con una pantalla HD IPS de 11,6 pulgadas (con soporte táctil opcional) y paneles certificados por TUV Rheinland con luz azul baja. A diferencia de la versión normal, el Chromebook Spin 311 tiene una pantalla convertible que también funciona como tableta cuando es necesario.

Read more