Запустить модель локально через Ollama сегодня просто — мы разбирали это в гайде про локальный запуск Ollama. Но голая модель в терминале не помнит вас между сессиями и ничего не знает о вашей работе. Ценность раскрывается, когда поверх неё появляется приложение с памятью. Эта статья — про то, как подключить Ollama к Persona и получить ассистента, который работает полностью на вашем устройстве, без единого запроса в облако.
Зачем именно связка Ollama + Persona
Persona умеет подключаться к разным LLM-провайдерам. Если выбрать облачный — запросы пойдут по вашему API-ключу к внешнему сервису. Если выбрать локальный через Ollama — не уходит ничего: и захваченная память, и ваши вопросы, и ответы модели остаются на машине. Это и есть air-gapped режим в строгом смысле: можно отключить интернет, и ассистент продолжит работать.
Такой режим нужен не всем и не всегда, но он незаменим, когда вы имеете дело с чувствительными данными — личными заметками, рабочими документами под NDA, кодом. Тут принцип «нечего отправлять» важнее любого обещания о приватности.
Два места, где Persona использует модель
Важная деталь, которую часто упускают: для полноценной локальной работы модель нужна в двух ролях, и это разные модели.
- Чат-модель — генерирует ответы в диалоге. Это «голова» ассистента. Её вы выбираете под своё железо: компактная на ноутбуке, крупнее — на десктопе с большим VRAM.
- Embed-модель — превращает тексты в векторы для умного поиска по памяти (семантический recall). Это лёгкая специализированная модель, например
nomic-embed-text. Она не разговаривает — она помогает находить релевантные куски памяти по смыслу, а не только по словам.
Если подключить только чат-модель, ассистент будет отвечать, но семантический поиск по памяти останется выключенным. Это нормально: по умолчанию Persona ищет по ключевым словам (быстро и без зависимостей), а векторный поиск — опциональное улучшение.
Шаг 1. Подготовить модели в Ollama
Сначала скачайте обе модели через Ollama (интернет нужен только на этот разовый шаг):
ollama pull <чат-модель>
ollama pull nomic-embed-text
Чат-модель выбирайте по таблице из гайда по Ollama: компактная для слабого железа, средняя или крупная — если есть VRAM. Embed-модель лёгкая и встанет на любой машине.
Проверьте, что обе на месте:
ollama list
Шаг 2. Указать Persona на локального провайдера
В настройках LLM выберите провайдера Ollama и укажите имя чат-модели — ровно так, как она называется в ollama list. Persona подключается к локальному API Ollama, поэтому веса не загружаются повторно: и терминал, и приложение используют одну и ту же скачанную модель.
После этого диалог в чате пойдёт через локальную модель. Никаких ключей и облака — проверить легко: отключите сеть и задайте вопрос.
Шаг 3. (Опционально) Включить семантический поиск по памяти
По умолчанию память ищется по ключевым словам — это работает из коробки и ничего не требует. Если хотите умный поиск по смыслу (находить релевантное, даже когда формулировка не совпадает дословно), включается векторный режим. Честно о требованиях: ему нужны дополнительный модуль для векторов в базе и embed-модель в Ollama (nomic-embed-text), плюс однократный проход индексации накопленной памяти. Без них Persona тихо откатывается на поиск по ключевым словам — ничего не ломается.
Это сознательный компромисс: базовый режим прост и быстр, продвинутый — мощнее, но требует пары шагов настройки. Выбор за вами.
Честно про скорость и качество
Не буду продавать вам сказку: локальная модель — это компромисс.
- Скорость зависит от железа. На мощном десктопе с VRAM ответы идут бодро; на ноутбуке без видеокарты компактная модель отвечает медленнее, а крупную лучше не запускать вовсе.
- Качество компактных локальных моделей в среднем уступает топовым облачным в сложных рассуждениях. Для многих повседневных задач — поиск по своей памяти, суммаризация, вопросы по дню — этого достаточно с запасом. Для тяжёлой аналитики разрыв заметнее.
Подробный разбор этого компромисса — в статье про локальную модель против облака. Хорошая стратегия — гибрид: локальная модель для приватных и рутинных задач, облачная по ключу — когда нужна максимальная мощность и данные не чувствительны.
Что вы получаете в итоге
Связка Ollama + Persona даёт то, чего не даст ни облачный ассистент, ни голая модель в терминале:
- ассистента с памятью о вашей реальной работе (захват экрана, чаты, дни);
- работу офлайн и приватность по дизайну — данные не покидают устройство;
- независимость от подписок и лимитов токенов;
- путь к развитию: когда наберётся достаточно ваших «хороших» ответов, следующим шагом может стать своя дообученная модель — её тоже удобно крутить через ту же Ollama.
Итог: Ollama даёт мотор, Persona — память, контекст и интерфейс вокруг него. Вместе они превращают «локальный запуск LLM» из разового эксперимента в терминале в приватного помощника на каждый день, который знает именно вас и не зависит от чужого облака.