🎙️ Гайды

"Голосовой доступ к памяти: hands-free ассистент, который слышит и отвечает"

Самый частый момент, когда нужна память, — это когда руки заняты делом. Вы пишете код, верстаете, готовите, ведёте встречу — и всплывает вопрос: «как мы решили это в прошлый раз?», «что я обещал клиенту?». Тянуться к клавиатуре, переключать окно, формулировать запрос — это сбивает поток. Голосовой доступ убирает этот барьер: спросил вслух — услышал ответ.

Из чего состоит голосовой цикл

Голосовой ассистент — это не одна кнопка, а конвейер из трёх звеньев:

  • STT (распознавание речи) — ваш голос превращается в текст. Под капотом — Whisper-движок, который переводит фразу в запрос к памяти.
  • Ход модели — текст уходит в тот же чат с памятью, что и при печати: тянется кросс-чат recall, факты о вас, контекст дня. Ответ формируется ровно так же, как в текстовом режиме.
  • TTS (синтез речи) — ответ озвучивается обратно. Можно настроить голос и скорость под себя.

Важно: это тот же ассистент, что и в чате, просто с другим «вводом-выводом». Память, инструменты, режимы — всё общее. Голос — это интерфейс, а не отдельный урезанный бот.

Hands-free и barge-in

Два свойства превращают «голосовой ввод» в по-настоящему удобный режим:

  • Hands-free — ассистент слушает непрерывно и сам определяет, когда вы закончили фразу (по паузе), без необходимости каждый раз жать кнопку. Можно работать руками и говорить.
  • Barge-in (перебивание) — если ассистент начал длинный ответ, а вы уже поняли суть или хотите уточнить, достаточно заговорить — озвучка обрывается, и он слушает вас. Как в живом разговоре, где не нужно ждать, пока собеседник договорит.

Без barge-in голосовой режим раздражает: приходится дослушивать. С ним — это диалог, а не монолог автоответчика.

Два транспорта: браузер и агент

Голос работает на двух уровнях, и они дополняют друг друга:

  • В браузере. Прямо на странице чата: микрофон распознаёт речь, ответ озвучивается синтезатором браузера. Удобно, когда вы за компьютером и открыта вкладка.
  • Через агента на устройстве. Тот же агент, что захватывает экран, может слушать и отвечать голосом в фоне — даже когда вкладка не активна. Здесь движки распознавания и синтеза ставятся на само устройство, и голос остаётся локальным.

Выбор транспорта — за вами: для быстрого вопроса хватит браузера, для постоянного hands-free-компаньона лучше агентный режим.

Почему это укладывается в local-first

Голос — чувствительная штука: это буквально ваша речь. Поэтому принцип тот же, что и со скриншотами: движки распознавания и синтеза работают на вашем устройстве, а запрос идёт к вашей же локальной памяти. Никакого облачного «всегда слушающего» микрофона, который шлёт поток на чужие серверы. Вы говорите со своим вторым мозгом, а не с дата-центром.

Честная оговорка: качество распознавания зависит от модели Whisper и микрофона, а синтез голоса звучит по-разному на разных системах. Это инженерные параметры, которые настраиваются, а не магия из коробки — но они под вашим контролем, а не за стеной чужого API.

Как начать

  1. Откройте чат и включите голосовой режим (кнопка микрофона).
  2. Для постоянного hands-free — настройте агента на устройстве: распознавание и синтез ставятся локально.
  3. Выберите голос и скорость озвучки под себя.
  4. Спросите вслух что-нибудь из своей истории — и проверьте barge-in, перебив ответ на полуслове.

Голос — это не гаджет ради гаджета. Это способ обращаться к памяти в те самые моменты, когда печатать невозможно, — и получать ответ, не отрываясь от дела. Второй мозг, с которым можно просто поговорить.

← Раньше
"Граф памяти: как связать людей, проекты и идеи из твоего дня"

Хочешь ИИ, который помнит тебя?

Persona видит твой день, помнит контекст и работает на твоём железе.

Создать аккаунт