"Как обучить свою модель: «вторая копия» на QLoRA, шаг за шагом"

«Вторая копия» — это локальная модель, дообученная на ваших данных и под ваш стиль. Не замена облачному интеллекту, а кое-что другое: ассистент, который звучит как нужно вам и работает офлайн, на вашем железе. Разберём весь путь честно — включая то, что у маленькой модели получится, а что нет.

Сначала — трезвые ожидания

Дообучение не делает модель умнее. Интеллект — свойство базовой модели и её претрейна; QLoRA на нескольких тысячах примеров его не добавит. Что дообучение реально даёт:

стиль и тон — модель отвечает в нужной манере;
самосознание — знает, кто она и чья (это и есть «копия»);
поведение — например, прямота вместо подхалимажа.

Если нужна именно способность рассуждать — берите базу, которая уже умеет это (reasoning-модель), и дообучайте её аккуратно, сохраняя мыслительные следы. Иначе обучение на коротких ответах без рассуждений «затрёт» мышление — это известный эффект.

Шаг 1. Собрать датасет

Датасет — это пары «вопрос → ответ» в формате чата. Источники:

синтетика — рукописные эталоны вашего стиля (тон, характер);
реальная история — пары из ваших прошлых диалогов (делают копию персональной);
идентичность — несколько примеров «как тебя зовут / кто твой автор», чтобы модель знала, чья она.

Важно: если хотите reasoning, держите в обучающих ответах настоящие цепочки рассуждений (<think>…</think> у моделей вроде Qwen3-Thinking) и подмешивайте открытые reasoning-датасеты — иначе мышление деградирует.

Шаг 2. Выбрать базу под железо

Реалистично для слабой видеокарты (4 ГБ) — модели 0.5–1.5B в 4-битном QLoRA. Это клон стиля, не интеллекта. Хотите умнее и при этом «думающую» — Qwen3-4B-Thinking: на бесплатном Colab T4 (16 ГБ) она тренируется QLoRA с запасом, а готовый GGUF в Q4 (~2.5 ГБ) запускается даже на 4 ГБ через Ollama (с квантованным KV-кэшем или частичным оффлоадом).

Шаг 3. Обучение (QLoRA)

QLoRA = базовая модель в 4-битах + обучаются только лёгкие LoRA-адаптеры. Это в разы экономит память. Ключевые моменты, на которых спотыкаются:

Точность под железо. На картах без аппаратного bf16 fp16-скейлер может падать; на Turing+/T4 надёжнее bf16-режим. Выбирайте по torch.cuda.is_bf16_supported().
Лёгкий LoRA, чтобы не сломать модель. Низкий rank (8–16), 1–2 эпохи, аккуратный LR. «Тяжёлое» дообучение на узких данных стирает общие способности.
Не маскируйте рассуждения. Для thinking-моделей блок <think> — часть ответа и должен входить в обучение.

Тяжёлую тренировку логично делать один раз на бесплатном Colab, а запускать результат — локально: инференс лёгкий, видеокарта дома справится.

Шаг 4. Запуск через Ollama

После обучения сливаете адаптер в базу, конвертируете в GGUF (квант Q4_K_M комфортно влезает в 4 ГБ) и заводите модель в Ollama одним Modelfile с системным промптом характера. Дальше — выбираете её как провайдера в настройках, и ответы идут вашим тоном, с вашего железа, без облака.

Что в итоге

«Вторая копия» — это не «свой ChatGPT умнее всех», а персональный, приватный, офлайновый ассистент в вашем стиле. Для сложных задач держите рядом мощную модель и переключайтесь в один клик. А копия закрывает то, чего облако не даст: тон, самосознание и независимость от чужого сервера.

В Persona под это есть готовый путь: сборщик датасета из вашей истории и пайплайн дообучения — остаётся прогнать обучение (на Colab или своей GPU) и подключить результат.

Сначала — трезвые ожидания

Шаг 1. Собрать датасет

Шаг 2. Выбрать базу под железо

Шаг 3. Обучение (QLoRA)

Шаг 4. Запуск через Ollama

Что в итоге

Ещё по теме

"Утренний брифинг и NL-напоминания: проактивный ассистент из реального контекста"

"Голосовой доступ к памяти: hands-free ассистент, который слышит и отвечает"

"Как начать с Persona за 5 минут: захват, память и первый вопрос"

Хочешь ИИ, который помнит тебя?