DeepSeek V3 — продолжение линейки, начатой DeepSeek R1. В новостях ии россия (292/мес) local inference — топ-тема: санкции, 152-ФЗ, cost control.
Что нового в V3
- 671B MoE (37B active) — quality ближе к GPT-4 class
- Контекст 128k — длинные документы для RAG
- Лицензия MIT — commercial OK
- Ollama / vLLM support в день релиза
Benchmark для RU
| Задача | DeepSeek V3 | Llama 3.3 70B |
|---|---|---|
| RU FAQ support | 8,2/10 | 7,1/10 |
| JSON tool calls | 94% valid | 89% |
| Tokens/sec (A100) | 42 | 38 |
Для локальный ии агент — V3 strong choice если есть GPU.
Infra новости
- vLLM 0.6 — DeepSeek optimized kernels
- Ollama —
ollama pull deepseek-v3(quantized Q4) - RunPod / Selectel — шаблоны one-click
Гайд: Ollama + n8n.
Implications
- Cloud API cost pressure — локалка окупается при > 5M tokens/mo
- Agentic RAG on-prem feasible
- Конкуренция с YandexGPT 5 в RU enterprise
Caution
MoE models hungry for VRAM — минимум 48GB для comfortable Q4. CPU-only — только малые quants.