«Вторая копия» — это локальная модель, дообученная на ваших данных и под ваш стиль. Не замена облачному интеллекту, а кое-что другое: ассистент, который звучит как нужно вам и работает офлайн, на вашем железе. Разберём весь путь честно — включая то, что у маленькой модели получится, а что нет.
Сначала — трезвые ожидания
Дообучение не делает модель умнее. Интеллект — свойство базовой модели и её претрейна; QLoRA на нескольких тысячах примеров его не добавит. Что дообучение реально даёт:
- стиль и тон — модель отвечает в нужной манере;
- самосознание — знает, кто она и чья (это и есть «копия»);
- поведение — например, прямота вместо подхалимажа.
Если нужна именно способность рассуждать — берите базу, которая уже умеет это (reasoning-модель), и дообучайте её аккуратно, сохраняя мыслительные следы. Иначе обучение на коротких ответах без рассуждений «затрёт» мышление — это известный эффект.
Шаг 1. Собрать датасет
Датасет — это пары «вопрос → ответ» в формате чата. Источники:
- синтетика — рукописные эталоны вашего стиля (тон, характер);
- реальная история — пары из ваших прошлых диалогов (делают копию персональной);
- идентичность — несколько примеров «как тебя зовут / кто твой автор», чтобы модель знала, чья она.
Важно: если хотите reasoning, держите в обучающих ответах настоящие цепочки рассуждений (<think>…</think> у моделей вроде Qwen3-Thinking) и подмешивайте открытые reasoning-датасеты — иначе мышление деградирует.
Шаг 2. Выбрать базу под железо
Реалистично для слабой видеокарты (4 ГБ) — модели 0.5–1.5B в 4-битном QLoRA. Это клон стиля, не интеллекта. Хотите умнее и при этом «думающую» — Qwen3-4B-Thinking: на бесплатном Colab T4 (16 ГБ) она тренируется QLoRA с запасом, а готовый GGUF в Q4 (~2.5 ГБ) запускается даже на 4 ГБ через Ollama (с квантованным KV-кэшем или частичным оффлоадом).
Шаг 3. Обучение (QLoRA)
QLoRA = базовая модель в 4-битах + обучаются только лёгкие LoRA-адаптеры. Это в разы экономит память. Ключевые моменты, на которых спотыкаются:
- Точность под железо. На картах без аппаратного bf16 fp16-скейлер может падать; на Turing+/T4 надёжнее bf16-режим. Выбирайте по
torch.cuda.is_bf16_supported(). - Лёгкий LoRA, чтобы не сломать модель. Низкий rank (8–16), 1–2 эпохи, аккуратный LR. «Тяжёлое» дообучение на узких данных стирает общие способности.
- Не маскируйте рассуждения. Для thinking-моделей блок
<think>— часть ответа и должен входить в обучение.
Тяжёлую тренировку логично делать один раз на бесплатном Colab, а запускать результат — локально: инференс лёгкий, видеокарта дома справится.
Шаг 4. Запуск через Ollama
После обучения сливаете адаптер в базу, конвертируете в GGUF (квант Q4_K_M комфортно влезает в 4 ГБ) и заводите модель в Ollama одним Modelfile с системным промптом характера. Дальше — выбираете её как провайдера в настройках, и ответы идут вашим тоном, с вашего железа, без облака.
Что в итоге
«Вторая копия» — это не «свой ChatGPT умнее всех», а персональный, приватный, офлайновый ассистент в вашем стиле. Для сложных задач держите рядом мощную модель и переключайтесь в один клик. А копия закрывает то, чего облако не даст: тон, самосознание и независимость от чужого сервера.
В Persona под это есть готовый путь: сборщик датасета из вашей истории и пайплайн дообучения — остаётся прогнать обучение (на Colab или своей GPU) и подключить результат.