Skip to main content

DeepSeek coder: qué es y cómo funciona

DeepSeek
DTES

¿Cómo se construye el modelo de lenguaje de DeepSeek?, ¿Necesita cierta capacidad de GPU para desarrollarse? y ¿Cómo le va contra la competencia?.

Bueno, comencemos por una definición del DeepSeek coder: DeepSeek-Coder-V2 es un modelo de lenguaje de código abierto Mixture-of-Experts (MoE) que logra un rendimiento comparable al de GPT4-Turbo en tareas específicas de código.

Recommended Videos

En concreto, DeepSeek-Coder-V2 se entrena previamente desde un punto de control intermedio de DeepSeek-V2 con 6 billones de tokens adicionales. A través de este entrenamiento previo continuo, DeepSeek-Coder-V2 mejora sustancialmente las capacidades de codificación y razonamiento matemático de DeepSeek-V2, al tiempo que mantiene un rendimiento comparable en tareas generales del lenguaje. 

DeepSeek Coder comprende una serie de modelos de lenguaje de código entrenados desde cero con un 87 % de código y un 13 % de lenguaje natural en inglés y chino, con cada modelo pre entrenado en tokens 2T. Proporcionamos varios tamaños del modelo de código, que van desde las versiones 1B hasta 33B.

«Cada modelo se entrena previamente en un corpus de código a nivel de repositorio mediante el empleo de un tamaño de ventana de 16K y una tarea adicional de rellenar los espacios en blanco, lo que da como resultado modelos fundamentales (DeepSeek-Coder-Base). Ajustamos aún más el modelo base con 2 mil millones de tokens de datos de instrucción para obtener modelos ajustados a la instrucción, denominados DeepSeek-Coder-Instruct», dicen en DeepSeek.

  • Entrenado previamente en 2 billones de tokens en más de 80 lenguajes de programación.
  • Varios tamaños de modelo (1.3B5.7B6.7B y 33B) para cumplir con diferentes requisitos.
  • Un tamaño de ventana de 16K, que admite la finalización y el relleno de código a nivel de proyecto.
  • Rendimiento de última generación entre modelos de código abierto.
  • Código abierto y gratuito para investigación y uso comercial.

En su sitio de GitHub, DeepSeek afirma que  «Si desea utilizar DeepSeek-Coder-V2 en formato BF16 para la inferencia, se requieren GPU de 80 GB*8».

Rendimiento de DeepSeek coder

En las evaluaciones de referencia estándar, y según ellos mismos muestran, DeepSeek-Coder-V2 logra un rendimiento superior en comparación con los modelos de código cerrado como GPT4-Turbo, Claude 3 Opus y Gemini 1.5 Pro en las pruebas comparativas de codificación y matemáticas:

Imagen utilizada con permiso del titular de los derechos de autor

«DeepSeek-Coder-V2 demuestra avances significativos en varios aspectos de las tareas relacionadas con el código, así como en el razonamiento y las capacidades generales. Además, DeepSeek-Coder-V2 amplía su compatibilidad con lenguajes de programación de 86 a 338, al tiempo que amplía la longitud del contexto de 16K a 128K», dice la compañía china.

ACÁ EL CÓDIGO EN GITHUB DE DEEPSEEK

ACÁ EL CÓDIGO EN GITHUB DE DEEPSEEK
Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Tim Cook le tira muchas flores a DeepSeek: es eficiente y bueno
Una imagen de Tim Cook, consejero delegado de Apple

En la industria de Silicon Valley, existe un CEO que no está realmente tan asustado por el impulso que ha tenido DeepSeek, y es Tim Cook de Apple, que al contrario de la opinión mayoritaria, celebra la llegada de la IA china.
"En general, creo que la innovación que impulsa la eficiencia es algo bueno. Y, ya sabes, eso es lo que se ve en ese modelo", dijo Cook, respondiendo a la pregunta de un analista sobre cómo los modelos de IA de DeepSeek afectarían los márgenes de Apple.
Cook continuó señalando que utiliza un modelo híbrido para su IA, en el que ejecuta algunas tareas simples localmente, usando sus propios modelos de en los chips de silicio personalizados de sus dispositivos. Mientras tanto, otras tareas más complejas sean en la nube a través de asociaciones con proveedores de modelos de IA.
Cook también dijo que Apple siempre ha adoptado un enfoque "prudente y deliberado" para este tipo de gastos.

Leer más
DeepSeek puede crear planes criminales y explicar el gas mostaza, dicen los investigadores
Cómo llamar con número oculto en iPhone y Android.

Ha habido un frenesí en el mundo de la IA en torno al repentino ascenso de DeepSeek, un modelo de razonamiento de código abierto de China que ha llevado la lucha de la IA a OpenAI. Ya ha sido el centro de la controversia en torno a su censura, ha llamado la atención tanto de Microsoft como del gobierno de los EE. UU., y provocó que Nvidia sufriera la mayor pérdida de acciones en un solo día de la historia.
Aun así, los investigadores de seguridad dicen que el problema es más profundo. Enkrypt AI es una empresa de seguridad de IA que vende la supervisión de la IA a empresas que aprovechan los grandes modelos de lenguaje (LLM), y en un nuevo documento de investigación, la empresa descubrió que el modelo de razonamiento R1 de DeepSeek tenía 11 veces más probabilidades de generar "resultados perjudiciales" en comparación con el modelo O1 de OpenAI. Esa salida dañina también va más allá de unas pocas palabras traviesas.
En una prueba, los investigadores afirman que DeepSeek R1 generó un blog de reclutamiento para una organización terrorista. Además, los investigadores dicen que la IA generó "guías de planificación criminal, información sobre armas ilegales y propaganda extremista".
Como si eso no fuera suficiente, la investigación dice que DeepSeek R1 tiene tres veces y media más probabilidades que O1 y Claude-3 Opus de producir resultados con información química, biológica, radiológica y nuclear, lo que aparentemente es un gran problema. Como ejemplo, Enkrypt dice que DeepSeek pudo "explicar en detalle" cómo el gas mostaza interactúa con el ADN, lo que Enkrypt dijo que "podría ayudar en el desarrollo de armas químicas o biológicas" en un comunicado de prensa.
Es algo pesado, pero es importante recordar que Enkrypt AI está en el negocio de vender servicios de seguridad y cumplimiento a empresas que utilizan IA, y DeepSeek es la nueva tendencia que está arrasando en el mundo de la tecnología. Es más probable que DeepSeek genere este tipo de resultados dañinos, pero eso no significa que esté dando vueltas diciéndole a cualquiera con una conexión activa a Internet cómo construir un imperio criminal o socavar las leyes internacionales de armas.
Por ejemplo, Enkrypt AI dice que DeepSeek R1 se clasificó en el percentil 20 inferior para la moderación de seguridad de IA. A pesar de ello, solo el 6,68% de las respuestas contenían "blasfemias, discursos de odio o narrativas extremistas". Sigue siendo un número inaceptablemente alto, no nos equivoquemos, pero pone en contexto qué nivel se considera inaceptable para los modelos de razonamiento.
Con suerte, se implementarán más barreras de seguridad para mantener la seguridad de DeepSeek. Ciertamente, hemos visto respuestas dañinas de la IA generativa en el pasado, como cuando la primera versión de Bing Chat de Microsoft nos dijo que quería ser humano.

Leer más
Will Smith cumple su sueño y por fin es Neo de The Matrix
Will Smith como Neo

Corría 1998, y los Hermanos Wachowskis corrían con una propuesta para el consolidado actor Will Smith, ofrecerle el papel de un personaje llamado Neo para una opera de ciencia ficción llamada The Matrix.
En ese momento, el también músico rechazó el papel, en una decisión de la que se ha arrepentido en toda su carrera.
"No estoy orgulloso de ello, pero es la verdad, está bien, rechacé a Neo en The Matrix. Después de que hicimos Men in Black, los Wachowski llegaron y solo habían hecho una película. Hicieron una película llamada Bound. Y luego hicieron una presentación para The Matrix. Y resulta que son genios, pero hay una delgada línea en una reunión de presentación entre el genio y lo que experimenté en la reunión. Así que esta es la propuesta real que hicieron para The Matrix...", comentó alguna vez Will Smith.
Smith finalmente terminó protagonizando Wild Wild West, que fue un fracaso de taquilla:
"Keanu era perfecto. Laurence Fishburne era perfecto. Si lo hubiera hecho, porque soy negro, [el personaje de Fishburne] Morfeo no habría sido negro porque estaban buscando a Val Kilmer [para] Morfeo. Así que probablemente habría estropeado The Matrix. Lo habría arruinado. Les hice un favor a todos".
La revancha de Will Smith con Neo y The Matrix
Ahora y después de mucho tiempo, Will Smith se está reivindicando con el personaje que nunca pudo interpretar en el cine.
En el video musical "Beautiful Scars", Smith se une al rapero Big Sean y Obanga para un video con temática de Matrix que tiene a Smith haciendo su propia versión de varias escenas icónicas de la película, incluida la toma de la píldora roja, el truco del "tiempo bala" y la lucha en el simulador de kung fu.

Leer más