Skip to main content

¿Qué es DeepSeek AI y por qué tiene asustados y en jaque a ChatGPT y todos los demás?

DeepSeek
DTES

El mundo de la IA se despertó este lunes 27 de enero en Estados Unidos en pánico, con OpenAI y Perplexity y otras plataformas mirando con atención la aparición en el top 1 de descargas de la App Store de Apple de DeepSeek AI, un modelo de IA proveniente de China que se caracteriza a grandes rasgos por ser de código abierto y donde además los usuarios comentan que la función de búsqueda que acompaña a DeepSeek ahora es superior a competidores como OpenAI y Perplexity, y solo rivaliza con Gemini Deep Research de Google.

DeepSeek afirma que DeepSeek R1 supera a los modelos de IA de la competencia en varios puntos de referencia clave.

🚀 DeepSeek-R1 is here!

⚡ Performance on par with OpenAI-o1
📖 Fully open-source model & technical report
🏆 MIT licensed: Distill & commercialize freely!

🌐 Website & API are live now! Try DeepThink at https://t.co/v1TFy7LHNy today!

🐋 1/n pic.twitter.com/7BlpWAPu6y

— DeepSeek (@deepseek_ai) January 20, 2025

Desmenuzando DeepSeek

Una de las primeras conclusiones que sacan los expertos con esta aparición es que el lanzamiento de DeepSeek podría democratizar el acceso a las capacidades de IA de vanguardia, lo que permitiría a las organizaciones más pequeñas competir de manera efectiva.

Recommended Videos

DeepSeek es de uso gratuito en la web y como aplicación para teléfonos inteligentes, y la compañía cobra mucho menos por el acceso a la API que OpenAI por su modelo de IA de razonamiento más avanzado. Durante el fin de semana aparecieron numerosos hilos en las redes sociales con ejemplos de personas que ejecutan DeepSeek en hardware bastante modesto o lo utilizan para realizar tareas complejas.

 

En noviembre, DeepSeek fue noticia con su anuncio de que había logrado un rendimiento que superaba el o1 de OpenAI, pero en ese momento solo ofrecía un modelo de vista previa R1-lite limitado. Con el lanzamiento completo de R1 el lunes y el documento técnico que lo acompaña, la compañía reveló una innovación sorprendente: una desviación deliberada del proceso convencional de ajuste fino supervisado (SFT) ampliamente utilizado en el entrenamiento de grandes modelos de lenguaje (LLM).

SFT, un paso estándar en el desarrollo de IA, implica entrenar modelos en conjuntos de datos seleccionados para enseñar un razonamiento paso a paso, a menudo denominado cadena de pensamiento (CoT). Se considera esencial para mejorar las capacidades de razonamiento. Sin embargo, DeepSeek desafió esta suposición al omitir SFT por completo, optando en su lugar por confiar en el aprendizaje por refuerzo (RL) para entrenar el modelo.

Los investigadores concluyen sobre RL: «Subraya el poder y la belleza del aprendizaje por refuerzo: en lugar de enseñar explícitamente al modelo sobre cómo resolver un problema, simplemente le proporcionamos los incentivos adecuados y desarrolla de forma autónoma estrategias avanzadas de resolución de problemas».

DeepSeek es parte del fondo de cobertura chino High-Flyer Quant, que comenzó desarrollando modelos de IA para su chatbot patentado antes de lanzarlos para uso público. 

Para entrenar sus modelos, High-Flyer Quant aseguró más de 10,000 GPU Nvidia antes de las restricciones de exportación de EE. UU. y, según se informa, se expandió a 50,000 GPU a través de rutas de suministro alternativas, a pesar de las barreras comerciales. Esto palidece en comparación con los principales laboratorios de IA como OpenAI, Google y Anthropic, que operan con más de 500.000 GPU cada uno.

Según los informes, DeepSeek entrenó su modelo base, llamado V3, con un presupuesto de $ 5.58 millones durante dos meses, según el ingeniero de Nvidia Jim Fan.

¿Nvidia el gran perdedor?

El lanzamiento y la repentina popularidad de DeepSeek también podrían afectar al mercado de valores de EE. UU., donde Nvidia actualmente reina como la empresa más grande por capitalización de mercado. Hay indicios de que DeepSeek se ha construido y entrenado por mucho menos que los modelos competidores con sede en EE. UU., como Llama de Meta y ChatGPT de OpenAI. Esto, a su vez, podría significar una demanda más débil de hardware de Nvidia, que se usa comúnmente para aplicaciones de IA de gama alta.

Topics
Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
¿Por qué ChatGPT es malo en matemáticas?
ChatGPT buscador

Cualquier usuario asiduo de ChatGPT sabe que el modelo de lenguaje amplio de OpenAI es malo en matemáticas. Sí, claro que resolverá problemas simples como una resta, pero cuando le pides una operación relativamente básica como una multiplicación con cifras medianamente grandes, ChatGPT comienza a mostrar sus carencias. ¿Por qué ChatGPT es malo en matemáticas? Hay varias razones, pero también algunas soluciones que podrían resultar interesantes desde un punto de vista de desarrollo que vamos a tratar de explicar.
Es que las matemáticas no son lo suyo

Hay varias razones que explican por qué ChatGPT es malo en matemáticas. Quizá la más importante es el tipo de material con el que ha sido entrenado: internet. Nos explicamos. ChatGPT es un modelo de lenguaje amplio (large language model o LLM por sus siglas en inglés) diseñado para generar conversaciones similares a las que tendrían dos humanos. Para lograr esta característica fue entrenado con técnicas de deep learning, es decir, ChatGPT “aprende” de patrones y estructuras de millones de textos disponibles en internet. Con esa “fuente de conocimiento” genera respuestas relevantes según el contexto en el que se le pregunta.

Leer más
Un investigador hace creer a ChatGPT que tiene 102 años y vive en la Matrix
¿Qué es ChatGPT? Cómo usar el chatbot del que todo el mundo habla.

ChatGPT, el modelo amplio de lenguaje más utilizado y prometedor del mundo, puede usarse para extraer información sensible de un usuario, según reportó a OpenAI el investigador en ciberseguridad Johann Rehberger.

Su hallazgo, contado en un videoblog consignado por  ArsTechnica, es una fuente de preocupación, pues señala que “cada que el usuario inicia una nueva conversación ChatGPT continúa extrayendo información”.

Leer más
Todo sobre Venice AI: qué es y cómo usar la plataforma de inteligencia artificial sin censura
Venice AI

Venice AI es una plataforma de inteligencia artificial que ha llegado para romper las reglas del juego. Creada por Erik Voorhees, el fundador del servicio de criptomonedas ShapeShift, esta herramienta pone el foco en dos pilares fundamentales: la privacidad y la libertad total, sin censura. Si te interesa una IA sin restricciones, sigue leyendo que te contamos de qué se trata, cómo funciona y cómo sacarle el máximo provecho.
¿Qué es Venice AI y cómo funciona?

Venice AI es una aplicación de inteligencia artificial generativa. Es decir, puedes usarla para generar texto, imágenes e incluso código, simplemente escribiendo lo que necesitas, al igual que ChatGPT. Sin embargo, lo interesante de Venice AI es que, a diferencia de otras plataformas, aquí no hay temas prohibidos. Puedes pedir lo que quieras sin preocuparte por restricciones o filtros. ¿Te suena raro? Es porque la mayoría de las IA convencionales censuran ciertos temas, ya sea por razones legales o éticas. Pero Venice apuesta por la libertad total.

Leer más