Мы создали первый в России полностью автоматический сервис синхронного телефонного перевода на основе искусственного интеллекта. Переводчик работает прямо во время звонка — без живого специалиста, без задержек, без предзаказа.
Идея родилась из простой проблемы: российский бизнес ведёт переговоры с иностранными партнёрами, но живой синхронный переводчик стоит дорого, недоступен в нужный момент и требует заказа заранее. Мы решили эту проблему технологиями.
Языковой барьер не должен мешать бизнесу развиваться. Российский импортёр, который хочет позвонить китайскому поставщику, не обязан искать переводчика за 5 000 ₽/час. IT-компания, которой нужно провести онбординг для иностранного разработчика, не должна ждать 3 дня. SIP Translator даёт доступ к профессиональному синхронному переводу здесь и сейчас.
От первой версии до полноценной мультиклиентской платформы — за несколько месяцев
Запуск базовой версии с поддержкой русского и английского языков. Настройка Nginx, SSL, первые тесты на реальных звонках. Обнаружение и исправление критических ошибок стабильности.
Реализован потоковый режим перевода — первый фрагмент теперь слышен через 0.8 сек. Добавлено управление переводом нажатием клавиши «1» на телефоне (DTMF). Задержка снижена с 3.4 до 1.0 сек.
Настроена двухуровневая защита от SIP-атак (iptables + диалплан FreeSWITCH). Запущена мультиклиентская архитектура: каждый клиент получает уникальный API-ключ, подключает свой аккаунт телефонии, управляет тарифами.
Подключены китайский, корейский, турецкий, вьетнамский языки. Переход с Deepgram Aura-2 на Microsoft edge-tts — задержка TTS снизилась с 1.5–2.0 сек до 0.6–0.9 сек. Добавлен TTS-кэш из 53 предсинтезированных фраз.
Запуск публичного лендинга, форма заявок с отправкой на email через Яндекс SMTP. Уведомление «Переводчик включён» на языке каждого собеседника. Демо-аккаунт на 10 минут. Текущая версия в продакшне.
Лучшие доступные технологии для каждого этапа перевода
Один из лучших STT-движков для телефонного аудио. Работает с 8kHz, справляется с акцентами и шумами линии, endpointing 200мс.
Потоковый перевод с сохранением контекста. Переводит смысл, а не слова — как носитель языка. Максимум 100 токенов на фразу для минимальной задержки.
Русский — Яндекс alena (0.15 сек). Остальные 9 языков — нейронные голоса Microsoft: AriaNeural, KatjaNeural, XiaoxiaoNeural и другие.
FreeSWITCH управляет звонками, соединяет участников, воспроизводит синтезированный перевод через uuid_broadcast. Два SIP-гейтвея Плюсофон.
Асинхронный Python-бэкенд на FastAPI. WebSocket для реального времени, systemd для управления сервисом, SQLite для биллинга.
Двухуровневая защита от SIP-атак: whitelist IP-адресов на уровне iptables и блокировка в диалплане FreeSWITCH. Авторизация по API-ключу.
Задержка ~1 секунда — это результат тысяч часов оптимизации. Мы жертвуем идеальным качеством синтеза ради того, чтобы разговор не прерывался. Собеседники говорят — перевод идёт.
Мы используем Claude AI вместо классических переводчиков именно потому, что он понимает контекст. «Отправьте прайс на почту» переводится как деловая фраза, а не набор слов.
Никаких сложных интеграций. Оба собеседника говорят по обычному телефону — никаких приложений, гарнитур или специального оборудования. Работает сразу после получения API-ключа.
Мы открыто говорим об ограничениях: задержка существует, очень быстрая речь распознаётся хуже, юридические нюансы лучше перепроверять. Честное описание — основа доверия.
Оставьте заявку — настроим демо-доступ на 10 минут и ответим на все вопросы