"Подключаем Ollama к Persona: полностью офлайн-ассистент без облака"

Запустить модель локально через Ollama сегодня просто — мы разбирали это в гайде про локальный запуск Ollama. Но голая модель в терминале не помнит вас между сессиями и ничего не знает о вашей работе. Ценность раскрывается, когда поверх неё появляется приложение с памятью. Эта статья — про то, как подключить Ollama к Persona и получить ассистента, который работает полностью на вашем устройстве, без единого запроса в облако.

Зачем именно связка Ollama + Persona

Persona умеет подключаться к разным LLM-провайдерам. Если выбрать облачный — запросы пойдут по вашему API-ключу к внешнему сервису. Если выбрать локальный через Ollama — не уходит ничего: и захваченная память, и ваши вопросы, и ответы модели остаются на машине. Это и есть air-gapped режим в строгом смысле: можно отключить интернет, и ассистент продолжит работать.

Такой режим нужен не всем и не всегда, но он незаменим, когда вы имеете дело с чувствительными данными — личными заметками, рабочими документами под NDA, кодом. Тут принцип «нечего отправлять» важнее любого обещания о приватности.

Два места, где Persona использует модель

Важная деталь, которую часто упускают: для полноценной локальной работы модель нужна в двух ролях, и это разные модели.

Чат-модель — генерирует ответы в диалоге. Это «голова» ассистента. Её вы выбираете под своё железо: компактная на ноутбуке, крупнее — на десктопе с большим VRAM.
Embed-модель — превращает тексты в векторы для умного поиска по памяти (семантический recall). Это лёгкая специализированная модель, например nomic-embed-text. Она не разговаривает — она помогает находить релевантные куски памяти по смыслу, а не только по словам.

Если подключить только чат-модель, ассистент будет отвечать, но семантический поиск по памяти останется выключенным. Это нормально: по умолчанию Persona ищет по ключевым словам (быстро и без зависимостей), а векторный поиск — опциональное улучшение.

Шаг 1. Подготовить модели в Ollama

Сначала скачайте обе модели через Ollama (интернет нужен только на этот разовый шаг):

ollama pull <чат-модель>
ollama pull nomic-embed-text

Чат-модель выбирайте по таблице из гайда по Ollama: компактная для слабого железа, средняя или крупная — если есть VRAM. Embed-модель лёгкая и встанет на любой машине.

Проверьте, что обе на месте:

ollama list

Шаг 2. Указать Persona на локального провайдера

В настройках LLM выберите провайдера Ollama и укажите имя чат-модели — ровно так, как она называется в ollama list. Persona подключается к локальному API Ollama, поэтому веса не загружаются повторно: и терминал, и приложение используют одну и ту же скачанную модель.

После этого диалог в чате пойдёт через локальную модель. Никаких ключей и облака — проверить легко: отключите сеть и задайте вопрос.

Шаг 3. (Опционально) Включить семантический поиск по памяти

По умолчанию память ищется по ключевым словам — это работает из коробки и ничего не требует. Если хотите умный поиск по смыслу (находить релевантное, даже когда формулировка не совпадает дословно), включается векторный режим. Честно о требованиях: ему нужны дополнительный модуль для векторов в базе и embed-модель в Ollama (nomic-embed-text), плюс однократный проход индексации накопленной памяти. Без них Persona тихо откатывается на поиск по ключевым словам — ничего не ломается.

Это сознательный компромисс: базовый режим прост и быстр, продвинутый — мощнее, но требует пары шагов настройки. Выбор за вами.

Честно про скорость и качество

Не буду продавать вам сказку: локальная модель — это компромисс.

Скорость зависит от железа. На мощном десктопе с VRAM ответы идут бодро; на ноутбуке без видеокарты компактная модель отвечает медленнее, а крупную лучше не запускать вовсе.
Качество компактных локальных моделей в среднем уступает топовым облачным в сложных рассуждениях. Для многих повседневных задач — поиск по своей памяти, суммаризация, вопросы по дню — этого достаточно с запасом. Для тяжёлой аналитики разрыв заметнее.

Подробный разбор этого компромисса — в статье про локальную модель против облака. Хорошая стратегия — гибрид: локальная модель для приватных и рутинных задач, облачная по ключу — когда нужна максимальная мощность и данные не чувствительны.

Что вы получаете в итоге

Связка Ollama + Persona даёт то, чего не даст ни облачный ассистент, ни голая модель в терминале:

ассистента с памятью о вашей реальной работе (захват экрана, чаты, дни);
работу офлайн и приватность по дизайну — данные не покидают устройство;
независимость от подписок и лимитов токенов;
путь к развитию: когда наберётся достаточно ваших «хороших» ответов, следующим шагом может стать своя дообученная модель — её тоже удобно крутить через ту же Ollama.

Итог: Ollama даёт мотор, Persona — память, контекст и интерфейс вокруг него. Вместе они превращают «локальный запуск LLM» из разового эксперимента в терминале в приватного помощника на каждый день, который знает именно вас и не зависит от чужого облака.

Зачем именно связка Ollama + Persona

Два места, где Persona использует модель

Шаг 1. Подготовить модели в Ollama

Шаг 2. Указать Persona на локального провайдера

Шаг 3. (Опционально) Включить семантический поиск по памяти

Честно про скорость и качество

Что вы получаете в итоге

Ещё по теме

"Утренний брифинг и NL-напоминания: проактивный ассистент из реального контекста"

"Голосовой доступ к памяти: hands-free ассистент, который слышит и отвечает"

"Как начать с Persona за 5 минут: захват, память и первый вопрос"

Хочешь ИИ, который помнит тебя?