Ollama модели: полный список, скачивание, выбор

Ollama — инструмент для запуска больших языковых моделей локально, без API и без интернета. Вы устанавливаете Ollama на свой компьютер или сервер, скачиваете модель одной командой — и получаете полноценный ИИ-ассистент, который работает на вашем железе. В этом справочнике — все доступные Ollama модели, команды для управления ими и рекомендации по выбору под конкретные задачи.

Что такое Ollama и как она работает

Языковая модель Ollama — это не одна модель, а целая библиотека. Ollama — это runtime, который умеет скачивать, запускать и управлять LLM-моделями через простой CLI и REST API. Все ollama доступные модели хранятся в официальной библиотеке ollama.com/library и скачиваются по команде ollama pull.

Принципиальное отличие от облачных ИИ: данные не покидают ваш сервер, нет платы за токены, нет ограничений на количество запросов. Поэтому Ollama популярна в корпоративных проектах и автоматизации через n8n.

Основные команды: скачать, запустить, удалить модель

ollama pull — скачать модель

Чтобы ollama скачать модель, используйте команду pull:

# Скачать последнюю версию llama3
ollama pull llama3

# Скачать конкретный вариант (7B, 13B, 70B)
ollama pull llama3:8b
ollama pull llama3:70b

# Скачать CodeLlama для программирования
ollama pull codellama:13b

Загрузка идёт напрямую из репозитория Ollama. Модели хранятся в ~/.ollama/models на Linux/Mac и в %USERPROFILE%\.ollama\models на Windows. Так выполняется ollama как загрузить модель — одна команда, без ручных скачиваний.

ollama run — запустить модель

Ollama запустить модель можно двумя способами:

# Интерактивный чат в терминале
ollama run llama3

# Однократный запрос (передать через pipe)
echo "Переведи на английский: привет мир" | ollama run llama3

Ollama запуск модели через REST API (порт 11434) для интеграции с приложениями:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Объясни, что такое n8n",
  "stream": false
}'

ollama list и ollama rm

# Посмотреть ollama список моделей (установленных)
ollama list

# Удалить модель из ollama
ollama rm llama3:8b

Команда как удалить модель из ollama — это ollama rm имя:тег. Важно: удаляется именно указанный вариант (например llama3:8b), а не все версии сразу.

Полный список: ollama какие модели есть

Посмотрим, ollama какие модели есть в официальной библиотеке. Все они ollama бесплатные модели — скачиваются без регистрации и оплаты.

Модели общего назначения

Модель	Размеры	Контекст	Сильные стороны
Llama 3.1 (Meta)	8B, 70B, 405B	128K	Универсальная, лучшая открытая модель 2024
Llama 3.2 (Meta)	1B, 3B, 11B, 90B	128K	Лёгкие варианты для слабого железа
Mistral	7B, Nemo 12B	32K–128K	Высокая скорость, хороший русский
Qwen 2.5 (Alibaba)	0.5B–72B	128K	Отличный китайский и русский язык
Gemma 2 (Google)	2B, 9B, 27B	8K	Компактная, быстрая на CPU
Phi-3 (Microsoft)	3.8B, 14B	128K	Лучший результат в классе до 4B
Mixtral (Mistral)	8x7B, 8x22B	32K	MoE-архитектура, качество 70B при меньших RAM

Модели для кода

Модель	Размеры	Лучше всего для
CodeLlama (Meta)	7B, 13B, 34B, 70B	Python, JS, общий код
DeepSeek Coder V2	16B, 236B	Конкурентная замена GPT-4 для кода
Qwen2.5-Coder	1.5B–32B	Быстро, хорошее качество кода
StarCoder2	3B, 7B, 15B	86 языков программирования

Модели для русского языка

Модель	Команда	Особенности
Saiga (Vikhr)	`ollama pull vikhr-nemo-12b-instruct-r-21-09-24`	Лучшие ollama русские модели, дообученные на русском
Qwen2.5	`ollama pull qwen2.5:7b`	Хороший русский «из коробки»
Mistral Nemo	`ollama pull mistral-nemo`	Мультиязычная, неплохой русский

Как установить модель в Ollama

Как установить модель в ollama и как добавить модель в ollama — это одно и то же: команда ollama pull. Но есть нюансы:

# Стандартная установка
ollama pull qwen2.5:7b

# Установка кастомной модели через Modelfile
ollama create my-model -f ./Modelfile

# Импорт GGUF-файла (скачанного вручную)
# В Modelfile:
# FROM ./model.gguf
ollama create my-custom -f ./Modelfile

Кастомный Modelfile позволяет задать системный промпт, параметры температуры и контекстного окна. Это особенно полезно при интеграции с n8n — вы создаёте модель с заранее настроенным поведением.

Лучшие модели для Ollama: что выбрать под задачу

Вопрос ollama какую модель выбрать зависит от трёх факторов: объём оперативной памяти, задача и нужен ли русский язык. Вот практические рекомендации для лучших моделей для ollama.

По объёму RAM

RAM	Рекомендация	Команда
4–8 ГБ	Phi-3 mini, Gemma 2B, Llama 3.2 3B	`ollama pull phi3:mini`
8–16 ГБ	Llama 3.1 8B, Mistral 7B, Qwen2.5 7B	`ollama pull llama3.1:8b`
16–32 ГБ	Mixtral 8x7B, Qwen2.5 14B, CodeLlama 13B	`ollama pull mixtral:8x7b`
32+ ГБ	Llama 3.1 70B, DeepSeek Coder V2 16B	`ollama pull llama3.1:70b`

ollama модели для кодинга

Лучший выбор среди ollama моделей для кодинга в 2026 году — DeepSeek Coder V2 16B: он опережает GPT-4 в ряде бенчмарков по коду и при этом доступен локально. Если нужна скорость и меньше RAM — Qwen2.5-Coder 7B. Классика — CodeLlama 13B, особенно хорош для Python и дополнения кода в IDE.

# Топ для кода
ollama pull deepseek-coder-v2:16b   # лучший баланс качества и требований
ollama pull qwen2.5-coder:7b        # быстрый, 8GB RAM
ollama pull codellama:13b           # классика, стабильный результат

Ollama русские модели

Для задач на русском языке выбирайте ollama русские модели — специально дообученные варианты. Лучший вариант сегодня:

Vikhr-Nemo-12B — дообучена командой Vikhr на русских данных, стабильный результат
Saiga-Mistral — классика, хороший русский, лёгкая
Qwen2.5 7B — без специального дообучения, но качество русского выше среднего

ollama pull vikhr-nemo-12b-instruct-r-21-09-24
ollama run vikhr-nemo-12b-instruct-r-21-09-24

Ollama модели без цензуры

В официальной библиотеке есть модели без системных ограничений — так называемые ollama модели без цензуры (uncensored). Используются в исследовательских и контент-задачах, где стандартные safety-фильтры мешают работе:

ollama pull llama2-uncensored — базовая версия без RLHF-фильтров
ollama pull wizard-vicuna-uncensored — более мощный вариант
ollama pull nous-hermes2 — дообучена для широкого круга задач без ограничений

Важно: использование uncensored-моделей в продакшен-системах требует дополнительной проверки контента на уровне приложения.

Ollama + n8n: какую модель выбрать для автоматизации

Если вы используете Ollama вместе с n8n для автоматизации, оптимальный выбор зависит от типа задачи:

Классификация и извлечение данных — Llama 3.1 8B или Mistral 7B: быстрые, точные, низкие требования
Генерация текстов и ответов на русском — Vikhr-Nemo-12B или Qwen2.5 7B
Анализ и написание кода — DeepSeek Coder V2 16B или Qwen2.5-Coder 7B
Агенты с длинным контекстом — Llama 3.1 8B (128K контекст)

Подробнее об интеграции Ollama с n8n — в статье Ollama + n8n: запускаем локальный LLM без интернета.

Как выбрать размер модели (B — миллиарды параметров)

Число после двоеточия в названии (7B, 13B, 70B) — количество миллиардов параметров. Чем больше — тем умнее, но тем выше требования к RAM и медленнее генерация.

Практическое правило: для размера модели нужно примерно в 1,5 раза больше RAM, чем весит модель в GGUF-формате (Q4_K_M квантизация ~4 бит на параметр, то есть 7B ≈ 4 ГБ VRAM/RAM). Для 7B-модели нужно минимум 8 ГБ RAM. Для 13B — 16 ГБ.

FAQ по Ollama моделям

Где смотреть полный список моделей?

На ollama.com/library — официальный каталог. Отсортируйте по количеству скачиваний — самые популярные и проверенные модели будут вверху.

Можно ли использовать Ollama на Windows?

Да, с версии 0.1.x Ollama поддерживает Windows через GPU NVIDIA и AMD. Скачать — с официального сайта ollama.com.

Что делать, если модель работает медленно?

Проверьте, задействована ли GPU. Если нет — убедитесь, что установлены драйверы CUDA (NVIDIA) или ROCm (AMD). Для CPU-only режима выбирайте модели не больше 7B.

Чем Ollama отличается от LM Studio?

LM Studio — десктопное приложение с GUI, Ollama — headless-сервер с REST API. Для интеграции с кодом и n8n предпочтительна Ollama: её API стандартизирован под OpenAI-формат, что упрощает подключение.

Ollama: все модели — полный список, скачивание и выбор 2026