"Голосовой доступ к памяти: hands-free ассистент, который слышит и отвечает"

Самый частый момент, когда нужна память, — это когда руки заняты делом. Вы пишете код, верстаете, готовите, ведёте встречу — и всплывает вопрос: «как мы решили это в прошлый раз?», «что я обещал клиенту?». Тянуться к клавиатуре, переключать окно, формулировать запрос — это сбивает поток. Голосовой доступ убирает этот барьер: спросил вслух — услышал ответ.

Из чего состоит голосовой цикл

Голосовой ассистент — это не одна кнопка, а конвейер из трёх звеньев:

STT (распознавание речи) — ваш голос превращается в текст. Под капотом — Whisper-движок, который переводит фразу в запрос к памяти.
Ход модели — текст уходит в тот же чат с памятью, что и при печати: тянется кросс-чат recall, факты о вас, контекст дня. Ответ формируется ровно так же, как в текстовом режиме.
TTS (синтез речи) — ответ озвучивается обратно. Можно настроить голос и скорость под себя.

Важно: это тот же ассистент, что и в чате, просто с другим «вводом-выводом». Память, инструменты, режимы — всё общее. Голос — это интерфейс, а не отдельный урезанный бот.

Hands-free и barge-in

Два свойства превращают «голосовой ввод» в по-настоящему удобный режим:

Hands-free — ассистент слушает непрерывно и сам определяет, когда вы закончили фразу (по паузе), без необходимости каждый раз жать кнопку. Можно работать руками и говорить.
Barge-in (перебивание) — если ассистент начал длинный ответ, а вы уже поняли суть или хотите уточнить, достаточно заговорить — озвучка обрывается, и он слушает вас. Как в живом разговоре, где не нужно ждать, пока собеседник договорит.

Без barge-in голосовой режим раздражает: приходится дослушивать. С ним — это диалог, а не монолог автоответчика.

Два транспорта: браузер и агент

Голос работает на двух уровнях, и они дополняют друг друга:

В браузере. Прямо на странице чата: микрофон распознаёт речь, ответ озвучивается синтезатором браузера. Удобно, когда вы за компьютером и открыта вкладка.
Через агента на устройстве. Тот же агент, что захватывает экран, может слушать и отвечать голосом в фоне — даже когда вкладка не активна. Здесь движки распознавания и синтеза ставятся на само устройство, и голос остаётся локальным.

Выбор транспорта — за вами: для быстрого вопроса хватит браузера, для постоянного hands-free-компаньона лучше агентный режим.

Почему это укладывается в local-first

Голос — чувствительная штука: это буквально ваша речь. Поэтому принцип тот же, что и со скриншотами: движки распознавания и синтеза работают на вашем устройстве, а запрос идёт к вашей же локальной памяти. Никакого облачного «всегда слушающего» микрофона, который шлёт поток на чужие серверы. Вы говорите со своим вторым мозгом, а не с дата-центром.

Честная оговорка: качество распознавания зависит от модели Whisper и микрофона, а синтез голоса звучит по-разному на разных системах. Это инженерные параметры, которые настраиваются, а не магия из коробки — но они под вашим контролем, а не за стеной чужого API.

Как начать

Откройте чат и включите голосовой режим (кнопка микрофона).
Для постоянного hands-free — настройте агента на устройстве: распознавание и синтез ставятся локально.
Выберите голос и скорость озвучки под себя.
Спросите вслух что-нибудь из своей истории — и проверьте barge-in, перебив ответ на полуслове.

Голос — это не гаджет ради гаджета. Это способ обращаться к памяти в те самые моменты, когда печатать невозможно, — и получать ответ, не отрываясь от дела. Второй мозг, с которым можно просто поговорить.

Из чего состоит голосовой цикл

Hands-free и barge-in

Два транспорта: браузер и агент

Почему это укладывается в local-first

Как начать

Ещё по теме

"Утренний брифинг и NL-напоминания: проактивный ассистент из реального контекста"

"Как начать с Persona за 5 минут: захват, память и первый вопрос"

"Как обучить свою модель: «вторая копия» на QLoRA, шаг за шагом"

Хочешь ИИ, который помнит тебя?