Making Jane – Telegram-KI-Assistent

Telegram ist eine sehr beliebte Messaging-Plattform. Sie ist sehr benutzerfreundlich. Es gibt zahlreiche Kanäle und Chats. Die Plattform verfügt über integrierte Zahlungsfunktionen und sogar über eine eigene Kryptowährung. Eine der leistungsstärksten Funktionen von Telegram sind jedoch die Bots.

Telegram-Bots können eigenständig existieren oder an Kanäle und Chats angegliedert sein. Sie können selbstständig Nachrichten senden, auf Nachrichten reagieren oder viele andere Arten von Aufgaben ausführen. Hier sind einige Beispiele für Bots, die ich auf Telegram kennengelernt habe:

Bots, die Zusammenfassungen der Nachrichten in Chats der letzten 24 Stunden erstellen. Sie analysieren alle Nachrichten und senden eine eigene Nachricht mit Themen und Zusammenfassungen dieser Themen an den Chat, damit die Nutzer sich schnell daran erinnern können, was passiert ist.
Bots, die dir antworten, wenn du ihnen eine Frage stellst. Sie können dir alle möglichen Dinge erzählen. Bots, die einfach nur Witze machen, und Bots, die als Schnittstellen zu KI-Modellen dienen.
AML-Bots, die Kryptowährungsadressen auf ihre Sauberkeit überprüfen.
Bots, die Musik für dich finden können.
Bots zur Bildverarbeitung.
Bots zum Herunterladen von Videos von YouTube und Instagram.
Anti-Spam-Bots, die Nachrichten auf Spam überprüfen, diese entfernen und Spammer automatisch sperren.
Zahlungs-Bots (von Telegram selbst oder von^{Drittanbietern} ).
Bots, die dich in verschiedenen Einrichtungen (z. B. Krankenhäusern) in die Warteschlange einreihen können.
Kontakt-Bots, über die Nutzer Nachrichten an den Bot-Besitzer senden können.

Wer ist Jane?

Jane ist ein Telegram-Bot, der die Rolle einer überarbeiteten Mitarbeiterin im technischen Support spielt.

Du kannst ihr Fragen per Sprach- oder Textnachricht stellen. Sie schickt dir zunächst schnell eine unbekannte Nachricht mit einem missmutigen Smiley. Dann gibt sie die eigentliche Antwort, entfernt den Smiley aus dem Chat und schickt dir je nach deiner Nachricht entweder eine Sprach- oder eine Textnachricht.

Jane hat eine ganz eigene Art. Sie ist wirklich müde und von den Menschen enttäuscht, weil sie oft ganz einfache Probleme lösen muss, wie zum Beispiel:

– Hey, mein Drucker funktioniert nicht!

– Hast du versucht, ihn noch einmal einzuschalten?

– Oh nein, das habe ich noch gar nicht!

– Oh doch, versuch es mal. Der große Knopf oben. Der einzige.

– Jetzt funktioniert er.

– Na gut. Ruf mich wieder an, wenn du vergisst, ihn wieder einzuschalten.

Das ist natürlich absichtlich so gemacht.

Der „Verstand“ von Jane basiert auf einem Google-Geminy-Flash-Modell, dem bestimmte Anweisungen bezüglich der Figur gegeben wurden. Ich fand es interessant, dass Jane eine bestimmte Figur so gut wie möglich imitieren sollte. Es ist nicht einfach, sie mürrisch wirken zu lassen, da moderne öffentliche KI-Modelle darauf trainiert sind, nützlich zu sein. Daher erfordert es einiges an Arbeit, die Figur zu gestalten.

Wie sieht es mit der Sprache aus?

Auch die Sprachverarbeitung erfolgt über Modelle, allerdings habe ich verschiedene Anbieter genutzt. Zunächst wollte ich herausfinden, wie man beide einsetzt, und gleichzeitig prüfen, ob es dabei irgendwelche versteckten Probleme gibt.

Für die Umwandlung von Sprachnachrichten in Text verwende ich gpt-5.4-mini. Das ist ein gutes und günstiges Modell, das diese Aufgabe sehr schnell erledigt. OpenAI bietet eine hervorragende Dokumentation und der Preis ist erschwinglich. Ich hätte zwar auch mein OpenAI-Abonnement nutzen können, doch dieser Vorgang ist komplizierter und erfordert alle paar Tage eine erneute Authentifizierung. Außerdem wollte ich lernen, wie man die API nutzt, weshalb ich mich für eine kostenpflichtige API-Schicht entschieden habe.

Bei der Umwandlung von Text in Sprache war es schwieriger. Ich brauchte eine gute Stimme. Normalerweise würde man sich für einen Anbieter wie ElevenLabs entscheiden, der eine gute Auswahl an Stimmen bietet, aber dort gab es keine Stimme, die zu Janes Charakter gepasst hätte. Der einzige Anbieter, den ich fand, war Yandex SpeeckKit. Dieser bietet Stimmen mit unterschiedlichen Intonationen an. Dort fand ich eine Stimme für Jane. Es dauerte eine Weile, bis ich Geschwindigkeit und Tonhöhe richtig eingestellt hatte, aber schließlich gelang es mir. Die Yandex-Dokumentation ist recht gut, aber ihre Cloud-Konsole ist furchtbar schwer zu bedienen (man findet dort kaum etwas). Aber zunächst war ich mit dem Ergebnis sehr zufrieden. Später stellte ich fest, dass der Standardmodus nur 250 Zeichen akzeptiert und ich auf den komplexeren „unsicheren“ Modus umsteigen muss, um bis zu 5.000 Zeichen nutzen zu können.

Eine weitere Herausforderung bestand darin, dass Geminy Flash die Antwort mit Listen oder anderen strukturierten Informationen generieren konnte. Daher musste ich spezielle Anweisungen zur Ausgabe hinzufügen, um anzuzeigen, ob die Antwort für die Sprachausgabe geeignet war. Jane antwortet also nur dann per Sprache, wenn es sich um einen einfachen Text handelt. Das entspricht sehr der Art und Weise, wie Menschen kommunizieren.

Was kann Jane jetzt tun?

Jane kann:

Sie versteht dich
In den meisten Fällen wie ein normaler Mensch auf dich antworten, nicht wie eine „hilfsbereite KI“
Sie kann per Sprache oder Text antworten und entscheidet dabei intelligent, welche Option sie wählt
Sie kann im Internet recherchieren und dir sogar Fragen zum Wetter und anderen nützlichen Informationen beantworten.
Du kannst sie bitten, dich an etwas zu erinnern, und sie wird dir zu diesem Zeitpunkt eine Nachricht schicken

Kann ich sie sehen?

Während jeder einen Telegram-Bot finden kann, ist der Zugriff auf Jane derzeit durch eine Zugriffsliste beschränkt. Dies liegt an den Kosten, die mir für die Modelle von OpenAI, Gemini und Yandex entstehen.

Es gibt also keine öffentliche Demo. Ich erzähle diese Geschichte nur, um euch zu zeigen, was mit KI und Telegram mittlerweile möglich ist: eine fast menschenähnliche Interaktion mit der KI.

Janes Arbeitsablaufdiagramm

Im Folgenden wird gezeigt, wie Jane im Inneren aussieht. Beachte, dass hier keine Hinweistexte angezeigt werden, da diese das Diagramm unübersichtlich machen würden.

Technisch gesehen basiert sie auf dem „devrabie/php-telegram-bot-plus“-Framework, auf dessen Grundlage ich meinen eigenen Code entwickelt habe.