Blog DP6
Inteligência Artificial

DeepSeek - Parte 2: Desvendando a Eficiência Técnica e as Inovações da IA Chinesa

Por
Rafael Ennes
27/2/2025

Agora vamos falar um pouco mais de tecnicalidades. O paper técnico (leitura obrigatória para as pessoas mais técnicas que criam soluções com LLM)  do DeepSeek não é apenas mais um documento acadêmico - é um manifesto de eficiência que está forçando até mesmo gigantes como Google e Meta a repensar suas abordagens fundamentais.

A Genialidade do MoE (Mixture of Experts)

Imagine uma orquestra onde, em vez de todos os músicos tocarem simultaneamente, apenas os especialistas necessários para cada trecho musical se apresentam. Esta é a essência do Mixture of Experts no DeepSeek:

  • Total de 671B parâmetros, mas apenas 37B ativos por token
  • Redução de 94% no consumo computacional
  • Manutenção de performance superior em benchmarks

A implementação do MoE pelo DeepSeek é particularmente elegante: o modelo aprende automaticamente a rotear diferentes aspectos do processamento linguístico para especialistas específicos. É como ter um super-cérebro que ativa apenas as áreas necessárias para cada tarefa.

Treinamento FP8: A Quebra de Paradigma

A DeepSeek utiliza FP8 (8 bits de ponto flutuante) ao invés do tradicional FP32 (32 bits) ou FP16 (16 bits), reduzindo o uso de memória em até 75% durante o treinamento. O formato FP8 usa:

  • 4 bits para o expoente
  • 3 bits para a mantissa
  • 1 bit para o sinal

Com isso conseguiu treinar seu modelo de 671B parâmetros usando apenas 2.664 milhões de horas de GPU H800, um feito impressionante considerando o tamanho do modelo

Reinforcement Learning Puro: O Santo Graal

O DeepSeek alcançou algo que muitos consideravam um sonho distante: treinamento via RL sem dados supervisionados. O processo ocorre em duas fases:

  1. Fase de Exploração
    • Modelo gera próprios exemplos
    • Aprende padrões emergentes
    • Auto-avalia qualidade
  2. Fase de Refinamento
    • Otimização via feedback interno
    • Ajuste fino de comportamentos
    • Convergência natural

Multi-Token Prediction: Pensando à Frente

A capacidade de prever múltiplos tokens simultaneamente é revolucionária:

fórmula Multi-Token Prediction

Esta fórmula aparentemente simples permite:

  • Geração 3x mais rápida
  • Melhor coerência em textos longos
  • Redução de alucinações

O Efeito Dominó na Indústria

O impacto destas inovações já é visível: Meta anunciou pesquisa em MoE para Llama, Google DeepMind indicou revisão na arquitetura do Gemini, Startups pivotam para FP8

Por Que Isso É Revolucionário

A genialidade do DeepSeek está em combinar estas inovações de forma sinérgica. É como se cada avanço amplificasse os benefícios dos outros:

  1. MoE reduz computação necessária
  2. FP8 otimiza uso de memória
  3. RL puro elimina dependência de dados rotulados
  4. Multi-token acelera todo o processo

O resultado é um modelo que não apenas compete com, mas frequentemente supera sistemas ocidentais custando uma fração do preço. É uma prova viva de que eficiência arquitetural pode triunfar sobre força bruta computacional.

O futuro da IA não pertence aos modelos mais caros ou às empresas com mais GPUs, mas àqueles que conseguem otimizar cada aspecto da arquitetura neural. O DeepSeek não apenas mostrou o caminho - estabeleceu um novo padrão de excelência técnica que outros terão que seguir.

O Despertar do Dragão: IA Chinesa em Ascensão

O sucesso do DeepSeek não é um caso isolado, mas parte de um movimento maior na IA chinesa.

Qwen da Alibaba

  • Modelo de 72B parâmetros com capacidades multimodais
  • Controle direto de dispositivos via API
  • Domínio em benchmarks: 7 entre os 10 melhores LLMs open-source

ERNIE 4.0 (Baidu)

  • Base de usuários massiva: 340 milhões
  • Especialização em processamento de mandarim

A discussão sobre open-source vs. open-weight revela uma transformação fundamental na indústria de IA. Enquanto a definição tradicional da OSI exige transparência total, o mercado está adotando uma abordagem mais nuançada, onde o compartilhamento de pesos do modelo e permissão para derivações comerciais já constituem uma forma significativa de abertura.

O sucesso desse modelo "híbrido" é evidenciado pelo crescimento explosivo do ecossistema DeepSeek, sugerindo que a comunidade valoriza mais a utilidade prática e a capacidade de inovação do que a aderência estrita às definições tradicionais de open-source.

Espero que tenha aproveitado a leitura até aqui. Enquanto muitos discutem se o modelo é bom ou não é, na DP6 sabemos que ele é barato e performático. Alguns agentes que criamos já testamos com modelos da DeepSeek, e podemos garantir que dentre os testes que executamos, temos um novo player mais competitivo aparecendo. Por ser opensource é possível pensar em uma arquitetura que te livre de pagar requisições por milhão de tokens e pagar somente a infraestrutura para provisionar uma arquitetura que comporte essa aplicação. Quer conhecer? Fale conosco. 

Compartilhe