Ollama — инструмент для запуска больших языковых моделей локально, без API и без интернета. Вы устанавливаете Ollama на свой компьютер или сервер, скачиваете модель одной командой — и получаете полноценный ИИ-ассистент, который работает на вашем железе. В этом справочнике — все доступные Ollama модели, команды для управления ими и рекомендации по выбору под конкретные задачи.
Что такое Ollama и как она работает
Языковая модель Ollama — это не одна модель, а целая библиотека. Ollama — это runtime, который умеет скачивать, запускать и управлять LLM-моделями через простой CLI и REST API. Все ollama доступные модели хранятся в официальной библиотеке ollama.com/library и скачиваются по команде ollama pull.
Принципиальное отличие от облачных ИИ: данные не покидают ваш сервер, нет платы за токены, нет ограничений на количество запросов. Поэтому Ollama популярна в корпоративных проектах и автоматизации через n8n.
Основные команды: скачать, запустить, удалить модель
ollama pull — скачать модель
Чтобы ollama скачать модель, используйте команду pull:
# Скачать последнюю версию llama3
ollama pull llama3
# Скачать конкретный вариант (7B, 13B, 70B)
ollama pull llama3:8b
ollama pull llama3:70b
# Скачать CodeLlama для программирования
ollama pull codellama:13b
Загрузка идёт напрямую из репозитория Ollama. Модели хранятся в ~/.ollama/models на Linux/Mac и в %USERPROFILE%\.ollama\models на Windows. Так выполняется ollama как загрузить модель — одна команда, без ручных скачиваний.
ollama run — запустить модель
Ollama запустить модель можно двумя способами:
# Интерактивный чат в терминале
ollama run llama3
# Однократный запрос (передать через pipe)
echo "Переведи на английский: привет мир" | ollama run llama3
Ollama запуск модели через REST API (порт 11434) для интеграции с приложениями:
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Объясни, что такое n8n",
"stream": false
}'
ollama list и ollama rm
# Посмотреть ollama список моделей (установленных)
ollama list
# Удалить модель из ollama
ollama rm llama3:8b
Команда как удалить модель из ollama — это ollama rm имя:тег. Важно: удаляется именно указанный вариант (например llama3:8b), а не все версии сразу.
Полный список: ollama какие модели есть
Посмотрим, ollama какие модели есть в официальной библиотеке. Все они ollama бесплатные модели — скачиваются без регистрации и оплаты.
Модели общего назначения
| Модель | Размеры | Контекст | Сильные стороны |
|---|---|---|---|
| Llama 3.1 (Meta) | 8B, 70B, 405B | 128K | Универсальная, лучшая открытая модель 2024 |
| Llama 3.2 (Meta) | 1B, 3B, 11B, 90B | 128K | Лёгкие варианты для слабого железа |
| Mistral | 7B, Nemo 12B | 32K–128K | Высокая скорость, хороший русский |
| Qwen 2.5 (Alibaba) | 0.5B–72B | 128K | Отличный китайский и русский язык |
| Gemma 2 (Google) | 2B, 9B, 27B | 8K | Компактная, быстрая на CPU |
| Phi-3 (Microsoft) | 3.8B, 14B | 128K | Лучший результат в классе до 4B |
| Mixtral (Mistral) | 8x7B, 8x22B | 32K | MoE-архитектура, качество 70B при меньших RAM |
Модели для кода
| Модель | Размеры | Лучше всего для |
|---|---|---|
| CodeLlama (Meta) | 7B, 13B, 34B, 70B | Python, JS, общий код |
| DeepSeek Coder V2 | 16B, 236B | Конкурентная замена GPT-4 для кода |
| Qwen2.5-Coder | 1.5B–32B | Быстро, хорошее качество кода |
| StarCoder2 | 3B, 7B, 15B | 86 языков программирования |
Модели для русского языка
| Модель | Команда | Особенности |
|---|---|---|
| Saiga (Vikhr) | ollama pull vikhr-nemo-12b-instruct-r-21-09-24 | Лучшие ollama русские модели, дообученные на русском |
| Qwen2.5 | ollama pull qwen2.5:7b | Хороший русский «из коробки» |
| Mistral Nemo | ollama pull mistral-nemo | Мультиязычная, неплохой русский |
Как установить модель в Ollama
Как установить модель в ollama и как добавить модель в ollama — это одно и то же: команда ollama pull. Но есть нюансы:
# Стандартная установка
ollama pull qwen2.5:7b
# Установка кастомной модели через Modelfile
ollama create my-model -f ./Modelfile
# Импорт GGUF-файла (скачанного вручную)
# В Modelfile:
# FROM ./model.gguf
ollama create my-custom -f ./Modelfile
Кастомный Modelfile позволяет задать системный промпт, параметры температуры и контекстного окна. Это особенно полезно при интеграции с n8n — вы создаёте модель с заранее настроенным поведением.
Лучшие модели для Ollama: что выбрать под задачу
Вопрос ollama какую модель выбрать зависит от трёх факторов: объём оперативной памяти, задача и нужен ли русский язык. Вот практические рекомендации для лучших моделей для ollama.
По объёму RAM
| RAM | Рекомендация | Команда |
|---|---|---|
| 4–8 ГБ | Phi-3 mini, Gemma 2B, Llama 3.2 3B | ollama pull phi3:mini |
| 8–16 ГБ | Llama 3.1 8B, Mistral 7B, Qwen2.5 7B | ollama pull llama3.1:8b |
| 16–32 ГБ | Mixtral 8x7B, Qwen2.5 14B, CodeLlama 13B | ollama pull mixtral:8x7b |
| 32+ ГБ | Llama 3.1 70B, DeepSeek Coder V2 16B | ollama pull llama3.1:70b |
ollama модели для кодинга
Лучший выбор среди ollama моделей для кодинга в 2026 году — DeepSeek Coder V2 16B: он опережает GPT-4 в ряде бенчмарков по коду и при этом доступен локально. Если нужна скорость и меньше RAM — Qwen2.5-Coder 7B. Классика — CodeLlama 13B, особенно хорош для Python и дополнения кода в IDE.
# Топ для кода
ollama pull deepseek-coder-v2:16b # лучший баланс качества и требований
ollama pull qwen2.5-coder:7b # быстрый, 8GB RAM
ollama pull codellama:13b # классика, стабильный результат
Ollama русские модели
Для задач на русском языке выбирайте ollama русские модели — специально дообученные варианты. Лучший вариант сегодня:
- Vikhr-Nemo-12B — дообучена командой Vikhr на русских данных, стабильный результат
- Saiga-Mistral — классика, хороший русский, лёгкая
- Qwen2.5 7B — без специального дообучения, но качество русского выше среднего
ollama pull vikhr-nemo-12b-instruct-r-21-09-24
ollama run vikhr-nemo-12b-instruct-r-21-09-24
Ollama модели без цензуры
В официальной библиотеке есть модели без системных ограничений — так называемые ollama модели без цензуры (uncensored). Используются в исследовательских и контент-задачах, где стандартные safety-фильтры мешают работе:
ollama pull llama2-uncensored— базовая версия без RLHF-фильтровollama pull wizard-vicuna-uncensored— более мощный вариантollama pull nous-hermes2— дообучена для широкого круга задач без ограничений
Важно: использование uncensored-моделей в продакшен-системах требует дополнительной проверки контента на уровне приложения.
Ollama + n8n: какую модель выбрать для автоматизации
Если вы используете Ollama вместе с n8n для автоматизации, оптимальный выбор зависит от типа задачи:
- Классификация и извлечение данных — Llama 3.1 8B или Mistral 7B: быстрые, точные, низкие требования
- Генерация текстов и ответов на русском — Vikhr-Nemo-12B или Qwen2.5 7B
- Анализ и написание кода — DeepSeek Coder V2 16B или Qwen2.5-Coder 7B
- Агенты с длинным контекстом — Llama 3.1 8B (128K контекст)
Подробнее об интеграции Ollama с n8n — в статье Ollama + n8n: запускаем локальный LLM без интернета.
Как выбрать размер модели (B — миллиарды параметров)
Число после двоеточия в названии (7B, 13B, 70B) — количество миллиардов параметров. Чем больше — тем умнее, но тем выше требования к RAM и медленнее генерация.
Практическое правило: для размера модели нужно примерно в 1,5 раза больше RAM, чем весит модель в GGUF-формате (Q4_K_M квантизация ~4 бит на параметр, то есть 7B ≈ 4 ГБ VRAM/RAM). Для 7B-модели нужно минимум 8 ГБ RAM. Для 13B — 16 ГБ.
FAQ по Ollama моделям
Где смотреть полный список моделей?
На ollama.com/library — официальный каталог. Отсортируйте по количеству скачиваний — самые популярные и проверенные модели будут вверху.
Можно ли использовать Ollama на Windows?
Да, с версии 0.1.x Ollama поддерживает Windows через GPU NVIDIA и AMD. Скачать — с официального сайта ollama.com.
Что делать, если модель работает медленно?
Проверьте, задействована ли GPU. Если нет — убедитесь, что установлены драйверы CUDA (NVIDIA) или ROCm (AMD). Для CPU-only режима выбирайте модели не больше 7B.
Чем Ollama отличается от LM Studio?
LM Studio — десктопное приложение с GUI, Ollama — headless-сервер с REST API. Для интеграции с кодом и n8n предпочтительна Ollama: её API стандартизирован под OpenAI-формат, что упрощает подключение.