Transkriptionseinstellungen

1. Endpunkttyp
2. Endpunktempfindlichkeit
3. Unterbrechungsempfindlichkeit
4. VAD-Empfindlichkeit (bei Speech-to-Speech)
Empfohlene Vorgehensweise

In den Transkriptionseinstellungen legst du fest, wann die KI erkennt, dass der User fertig gesprochen hat. Genau hier kannst du oft spürbar Latenz reduzieren.

1. Endpunkttyp

Beim Endpunkttyp wählst du, wie das Ende einer Nutzeraussage erkannt wird:

Spracherkennung (Standard): in der Regel schneller, gut für geringe Latenz.
KI-Erkennung: oft besser bei längeren Erzählungen und Denkpausen.

Empfehlung für viele Setups: mit Spracherkennung starten und nur bei Bedarf auf KI-Erkennung wechseln.

2. Endpunktempfindlichkeit

Die Endpunktempfindlichkeit bestimmt, wie lange die KI wartet, bevor sie davon ausgeht, dass der User fertig ist.

Schneller eingestellt: weniger Wartezeit, oft bessere Reaktionsgeschwindigkeit.
Höher eingestellt: mehr Sprechspielraum für langsamere Sprecher.

Wenn deine Zielgruppe eher langsam spricht (z. B. ältere Kundschaft), solltest du den Wert etwas anheben.

3. Unterbrechungsempfindlichkeit

Die Unterbrechungsempfindlichkeit steuert, wie leicht die KI beim Sprechen unterbrochen werden kann.

Ein häufiger Ausgangswert ist 0,50.
Outbound: meist schneller unterbrechbar sinnvoll.
Rezeption / Empfang: oft etwas mehr Stabilität sinnvoll.

4. VAD-Empfindlichkeit (bei Speech-to-Speech)

Bei Sprache-zu-Sprache-Modellen gibt es zusätzlich die VAD-Empfindlichkeit. Wenn aktiviert, hilft eine weitere Logik dabei, Sprachpausen und Sprecherwechsel besser zu erkennen - ähnlich zum Verhalten aus modernen Voice-Modi.

Empfohlene Vorgehensweise

Mit Standardwerten starten (Spracherkennung, moderate Regler).
Auf echten Testdialogen prüfen.
Immer nur einen Regler pro Test ändern.
Dann schrittweise auf deinen Use Case optimieren.

Jeder Assistent reagiert etwas anders. Die besten Einstellungen findest du durch kurze, iterative Tests mit realistischen Gesprächsszenarien.Siehe auch: Engine-Typen, Fehlerbehebung zur Anrufqualität und Transcriber-Provider-API.

Synthesizer Wissensdatenbank (RAG)

Einführung

Für Entwickler

Platform

KI-Assistenten Übersicht

Beispiel-Prompts

Custom Dashboards

Telefonnummern

Eingehende Anrufe

Ausgehende Anrufe

WhatsApp Business

KI-Prompting & Konversationsdesign

Automatisierung & Integrationen

Kosten & Preise

SIP Telefonnummern

Nummern-Bereitstellung

Fehlerbehebung & FAQs

MCP

Whitepapers & Ressourcen

Vertrieb & Best Practices

Rechtliche Informationen

Support

Transkriptionseinstellungen

1. Endpunkttyp

2. Endpunktempfindlichkeit

3. Unterbrechungsempfindlichkeit

4. VAD-Empfindlichkeit (bei Speech-to-Speech)

Empfohlene Vorgehensweise

Einführung

Für Entwickler

Platform

KI-Assistenten Übersicht

Beispiel-Prompts

Custom Dashboards

Telefonnummern

Eingehende Anrufe

Ausgehende Anrufe

WhatsApp Business

KI-Prompting & Konversationsdesign

Automatisierung & Integrationen

Kosten & Preise

SIP Telefonnummern

Nummern-Bereitstellung

Fehlerbehebung & FAQs

MCP

Whitepapers & Ressourcen

Vertrieb & Best Practices

Rechtliche Informationen

Support

Documentation Index

​1. Endpunkttyp

​2. Endpunktempfindlichkeit

​3. Unterbrechungsempfindlichkeit

​4. VAD-Empfindlichkeit (bei Speech-to-Speech)

​Empfohlene Vorgehensweise

1. Endpunkttyp

2. Endpunktempfindlichkeit

3. Unterbrechungsempfindlichkeit

4. VAD-Empfindlichkeit (bei Speech-to-Speech)

Empfohlene Vorgehensweise