Как запустить gpt-oss локально с Ollama
Хотите запустить OpenAI gpt-oss на своем оборудовании? Это руководство покажет, как с помощью Ollama настроить gpt-oss-20b или gpt-oss-120b локально, чтобы общаться с ним офлайн, использовать через API и даже подключать к Agents SDK.
Обратите внимание, что это руководство предназначено для потребительского оборудования, например, запуск моделей на ПК или Mac. Для серверных приложений с выделенными GPU, такими как NVIDIA H100, ознакомьтесь с нашим руководством по vLLM.
Выберите модель
Ollama поддерживает оба размера модели gpt-oss:
gpt-oss-20b
- Меньшая модель
- Рекомендуется при ≥16GB VRAM или унифицированной памяти
- Идеально подходит для высококлассных потребительских GPU или Mac на Apple Silicon
gpt-oss-120b
- Наша большая полноразмерная модель
- Рекомендуется при ≥60GB VRAM или унифицированной памяти
- Оптимально для многогранных GPU или мощных рабочих станций
Несколько важных замечаний:
- Эти модели поставляются в виде MXFP4 квантования «из коробки», других вариантов квантования пока нет
- Вы можете выгрузить вычисления на CPU при недостатке VRAM, но скорость работы будет ниже.
Быстрая настройка
- Установите Ollama → Скачать здесь
- Скачайте нужную модель:
<<<FENCE_0>>>
Общение с gpt-oss
Готовы пообщаться с моделью? Вы можете начать чат в приложении или в терминале:
<<<FENCE_1>>>
Ollama сразу применяет шаблон чата, имитирующий формат OpenAI harmony. Напишите сообщение и начните разговор.
Использование API
Ollama предоставляет API, совместимое с Chat Completions, поэтому вы можете использовать OpenAI SDK с минимальными изменениями. Вот пример на Python:
<<<FENCE_2>>>
Если вы уже пользовались OpenAI SDK, это покажется вам знакомым.
Также можно использовать Ollama SDK напрямую в Python или JavaScript.
Использование инструментов (вызов функций)
Ollama умеет:
- Вызывать функции
- Использовать встроенный браузерный инструмент (в приложении)
Пример вызова функции через Chat Completions:
<<<FENCE_3>>>
Поскольку модели могут вызывать инструменты в цепочке рассуждений (Chain-of-Thought, CoT), важно возвращать полученные от API рассуждения обратно в следующий вызов функции, где вы предоставляете ответ, пока модель не получит окончательный результат.
Обходные пути для Responses API
Ollama пока не поддерживает Responses API из коробки.
Если хотите использовать Responses API, вы можете применить прокси Responses.js
от Hugging Face, чтобы преобразовывать Chat Completions в Responses API.
Для базовых случаев можно также запустить наш пример Python-сервера с Ollama в качестве бэкенда. Этот сервер — простой пример и не поддерживает
<<<FENCE_4>>>
Интеграция с Agents SDK
Хотите использовать gpt-oss с OpenAI Agents SDK?
Обе версии Agents SDK позволяют переопределять базовый клиент OpenAI для подключения к Ollama через Chat Completions или через ваш Responses.js прокси для локальных моделей. Кроме того, вы можете использовать встроенный функционал для подключения Agents SDK к сторонним моделям.
- Python: Используйте LiteLLM для проксирования к Ollama через LiteLLM
- TypeScript: Используйте AI SDK с адаптером ollama
Вот пример Python Agents SDK с использованием LiteLLM:
<<<FENCE_5>>>