Самый частый момент, когда нужна память, — это когда руки заняты делом. Вы пишете код, верстаете, готовите, ведёте встречу — и всплывает вопрос: «как мы решили это в прошлый раз?», «что я обещал клиенту?». Тянуться к клавиатуре, переключать окно, формулировать запрос — это сбивает поток. Голосовой доступ убирает этот барьер: спросил вслух — услышал ответ.
Из чего состоит голосовой цикл
Голосовой ассистент — это не одна кнопка, а конвейер из трёх звеньев:
- STT (распознавание речи) — ваш голос превращается в текст. Под капотом — Whisper-движок, который переводит фразу в запрос к памяти.
- Ход модели — текст уходит в тот же чат с памятью, что и при печати: тянется кросс-чат recall, факты о вас, контекст дня. Ответ формируется ровно так же, как в текстовом режиме.
- TTS (синтез речи) — ответ озвучивается обратно. Можно настроить голос и скорость под себя.
Важно: это тот же ассистент, что и в чате, просто с другим «вводом-выводом». Память, инструменты, режимы — всё общее. Голос — это интерфейс, а не отдельный урезанный бот.
Hands-free и barge-in
Два свойства превращают «голосовой ввод» в по-настоящему удобный режим:
- Hands-free — ассистент слушает непрерывно и сам определяет, когда вы закончили фразу (по паузе), без необходимости каждый раз жать кнопку. Можно работать руками и говорить.
- Barge-in (перебивание) — если ассистент начал длинный ответ, а вы уже поняли суть или хотите уточнить, достаточно заговорить — озвучка обрывается, и он слушает вас. Как в живом разговоре, где не нужно ждать, пока собеседник договорит.
Без barge-in голосовой режим раздражает: приходится дослушивать. С ним — это диалог, а не монолог автоответчика.
Два транспорта: браузер и агент
Голос работает на двух уровнях, и они дополняют друг друга:
- В браузере. Прямо на странице чата: микрофон распознаёт речь, ответ озвучивается синтезатором браузера. Удобно, когда вы за компьютером и открыта вкладка.
- Через агента на устройстве. Тот же агент, что захватывает экран, может слушать и отвечать голосом в фоне — даже когда вкладка не активна. Здесь движки распознавания и синтеза ставятся на само устройство, и голос остаётся локальным.
Выбор транспорта — за вами: для быстрого вопроса хватит браузера, для постоянного hands-free-компаньона лучше агентный режим.
Почему это укладывается в local-first
Голос — чувствительная штука: это буквально ваша речь. Поэтому принцип тот же, что и со скриншотами: движки распознавания и синтеза работают на вашем устройстве, а запрос идёт к вашей же локальной памяти. Никакого облачного «всегда слушающего» микрофона, который шлёт поток на чужие серверы. Вы говорите со своим вторым мозгом, а не с дата-центром.
Честная оговорка: качество распознавания зависит от модели Whisper и микрофона, а синтез голоса звучит по-разному на разных системах. Это инженерные параметры, которые настраиваются, а не магия из коробки — но они под вашим контролем, а не за стеной чужого API.
Как начать
- Откройте чат и включите голосовой режим (кнопка микрофона).
- Для постоянного hands-free — настройте агента на устройстве: распознавание и синтез ставятся локально.
- Выберите голос и скорость озвучки под себя.
- Спросите вслух что-нибудь из своей истории — и проверьте barge-in, перебив ответ на полуслове.
Голос — это не гаджет ради гаджета. Это способ обращаться к памяти в те самые моменты, когда печатать невозможно, — и получать ответ, не отрываясь от дела. Второй мозг, с которым можно просто поговорить.