Telegram — очень популярная платформа для обмена сообщениями. Она очень проста в использовании. В ней есть множество каналов и чатов. В ней реализованы встроенные платежи и даже собственная криптовалюта. Но одной из самых мощных функций Telegram являются боты.
Боты в Telegram могут существовать самостоятельно или быть привязаны к каналам и чатам. Они могут общаться самостоятельно, реагировать на сообщения или выполнять множество других типов запросов. Вот несколько примеров ботов, с которыми я столкнулся в Telegram:
- Боты, которые составляют сводки сообщений в чатах за последние 24 часа. Они анализируют все сообщения и отправляют в чат собственное сообщение с темами и краткими описаниями этих тем, чтобы пользователи могли быстро вспомнить, что происходило.
- Боты, которые могут ответить вам, если вы их о чём-то спросите. Они могут рассказывать о самом разном. Есть боты, которые просто шутят, а есть такие, которые служат интерфейсом для моделей искусственного интеллекта.
- AML-боты, которые проверяют криптовалютные адреса на отсутствие подозрительной активности.
- Боты, которые могут подбирать для вас музыку.
- Боты для обработки изображений.
- Боты для скачивания видео с YouTube и Instagram.
- Антиспам-боты, которые проверяют сообщения на наличие спама, удаляют его и автоматически блокируют спамеров.
- Боты для платежей (собственные Telegram илисторонние ).
- Боты, которые могут поставить вас в очередь в различные организации (например, в больницы).
- Контактные боты, через которые пользователи могут отправлять сообщения владельцу бота.
Женя — это бот в Telegram, который играет роль уставшей сотрудницы службы технической поддержки.
Вы можете задавать ей вопросы с помощью голосовых или текстовых сообщений. Сначала она быстро отправит вам непонятное сообщение с изображением недовольного лица. Затем она даст фактический ответ, удалит смайлик из чата и отправит вам голосовое или текстовое сообщение в зависимости от вашего вопроса.
У Жени свой характер. Она действительно устала и разочарована людьми, потому что ей часто приходится решать элементарные проблемы, такие как:
– Привет, у меня принтер не работает!
– Ты пробовал включить его ещё раз?
– Ой, нет, не пробовал!
– Ну, попробуй. Эта большая кнопка сверху. Единственная.
– Теперь работает.
– Хорошо. Позвони мне ещё раз, когда снова забудешь его включить.
Это, конечно же, сделано специально.
«Мозги» Жени – это модель Google Gemini Flash, которой даны определённые инструкции относительно персонажа. Мне показалось интересным, чтобы Женя как можно точнее имитировала определённого персонажа. Сделать её недовольной не так просто, поскольку современные общедоступные модели ИИ обучены быть полезными. Поэтому создание такого персонажа требует определённых усилий.
Что насчёт голоса?
Обработка голосовых данных также осуществляется с помощью моделей, но я использовал разных поставщиков. Во-первых, я хотел понять, как использовать обе технологии, а также выяснить, нет ли здесь каких-то скрытых проблем.
Для преобразования голосовых сообщений в текст я использую gpt-5.4-mini. Это хорошая и недорогая модель, которая справляется с этой задачей очень быстро. У OpenAI отличная документация, а цена вполне доступная. Я мог бы даже воспользоваться своей подпиской на OpenAI, но этот процесс более сложен и требует повторной аутентификации каждые пару дней. Кроме того, я хотел научиться работать с API, поэтому выбрал платный API-сервис.
С преобразованием текста в речь было сложнее. Мне нужен был хороший голос. Обычно люди выбирают что-то вроде ElevenLabs, у которых хороший выбор голосов, но у них не было ни одного голоса, который подошёл бы для персонажа Джейн. Единственным поставщиком, которого я нашёл, был Yandex SpeeckKit. Он предоставляет голоса с различными интонациями. Там я и нашла голос для Джейн. Потребовалось некоторое время, чтобы настроить скорость и высоту тона, но в конце концов у меня получилось. Документация у Яндекса довольно хорошая, но их облачная консоль очень сложна в использовании (там трудно что-либо найти). Но сначала я был очень доволен результатом. Позже я обнаружил, что их режим по умолчанию поддерживает только 250 символов, и мне пришлось перейти на более сложный «небезопасный» режим, чтобы использовать до 5000 символов.
Ещё одной сложностью было то, что Geminy Flash мог генерировать ответы в виде списков или другой структурированной информации. Поэтому мне пришлось добавить специальные инструкции в его вывод, чтобы определять, подходит ли ответ для озвучивания. Так что Женя будет отвечать голосом только в том случае, если текст прост. Это очень похоже на то, как общаются люди.
Что Женя может сделать сейчас?
Женя может:
- Она понимает вас
- В большинстве случаев отвечать вам как обычный человек, а не как «полезный ИИ»
- Она может отвечать голосом или текстом, самостоятельно выбирая, как лучше ответить
- Она может искать информацию в Интернете и даже отвечать вам о погоде и другой полезной информации
- Вы можете попросить её напомнить вам о чём-нибудь, и она отправит вам сообщение в нужное время
Где посмотреть?
Хотя любой желающий может создать бота в Telegram, доступ к Жене в настоящее время ограничен списком пользователей. Это связано с расходами, которые мне приходится нести на модели OpenAI, Gemini и «Яндекса».
Поэтому нет, публичной демо-версии нет. Я рассказываю об этом только для того, чтобы показать, что сейчас возможно с помощью ИИ и Telegram: взаимодействие с ИИ, практически неотличимое от общения с человеком.