Zum Hauptinhalt springen
In den Transkriptionseinstellungen legst du fest, wann die KI erkennt, dass der User fertig gesprochen hat. Genau hier kannst du oft spürbar Latenz reduzieren.

1. Endpunkttyp

Beim Endpunkttyp wählst du, wie das Ende einer Nutzeraussage erkannt wird:
  • Spracherkennung (Standard): in der Regel schneller, gut für geringe Latenz.
  • KI-Erkennung: oft besser bei längeren Erzählungen und Denkpausen.
Empfehlung für viele Setups: mit Spracherkennung starten und nur bei Bedarf auf KI-Erkennung wechseln.

2. Endpunktempfindlichkeit

Die Endpunktempfindlichkeit bestimmt, wie lange die KI wartet, bevor sie davon ausgeht, dass der User fertig ist.
  • Schneller eingestellt: weniger Wartezeit, oft bessere Reaktionsgeschwindigkeit.
  • Höher eingestellt: mehr Sprechspielraum für langsamere Sprecher.
Wenn deine Zielgruppe eher langsam spricht (z. B. ältere Kundschaft), solltest du den Wert etwas anheben.

3. Unterbrechungsempfindlichkeit

Die Unterbrechungsempfindlichkeit steuert, wie leicht die KI beim Sprechen unterbrochen werden kann.
  • Ein häufiger Ausgangswert ist 0,50.
  • Outbound: meist schneller unterbrechbar sinnvoll.
  • Rezeption / Empfang: oft etwas mehr Stabilität sinnvoll.

4. VAD-Empfindlichkeit (bei Speech-to-Speech)

Bei Sprache-zu-Sprache-Modellen gibt es zusätzlich die VAD-Empfindlichkeit. Wenn aktiviert, hilft eine weitere Logik dabei, Sprachpausen und Sprecherwechsel besser zu erkennen - ähnlich zum Verhalten aus modernen Voice-Modi.

Empfohlene Vorgehensweise

  1. Mit Standardwerten starten (Spracherkennung, moderate Regler).
  2. Auf echten Testdialogen prüfen.
  3. Immer nur einen Regler pro Test ändern.
  4. Dann schrittweise auf deinen Use Case optimieren.
Jeder Assistent reagiert etwas anders. Die besten Einstellungen findest du durch kurze, iterative Tests mit realistischen Gesprächsszenarien.Siehe auch: Engine-Typen, Fehlerbehebung zur Anrufqualität und Transcriber-Provider-API.