1. Pipeline (klassisch)
Ablauf: Sprache → Text (Transkription) → Verarbeitung durch das Sprachmodell → Antworttext → Sprache (Text-to-Speech). Das ist die klassische Pipeline: Die KI „denkt“ auf Basis von Text, den du bei Bedarf auch nachvollziehen und feinjustieren kannst. Dafür braucht der Ablauf etwas mehr Zeit — dafür eignet er sich besonders, wenn Logik, längere Antworten oder komplexe Automationen im Vordergrund stehen. Typische Einsatzfälle: ausführliche Erklärungen, strukturierte Workflows, Szenarien, in denen du maximale Kontrolle über Formulierung und Stimme willst.2. Speech-to-Speech (Sprache zu Sprache)
Hier wird der Text-Schritt übersprungen: Das Modell hört direkt und antwortet direkt mit gesprochener Sprache — vergleichbar mit dem Sprachmodus in ChatGPT (der blaue Kreis). Das ist in der Regel der schnellste Modus mit dem geringsten wahrgenommenen Wartegefühl — ideal, wenn du einen schnellen Outbound-Caller oder sehr reaktive, kurze Dialoge brauchst.3. Dualplex
Dualplex kombiniert die Stärken beider Welten: Es wird dynamisch entschieden, was im jeweiligen Moment sinnvoll und zeitlich passend ist — z. B. schnelles Turn-Taking dort, wo es passt, und wo nötig mehr „Raum zum Denken“. Für die meisten Anwendungsfälle ist Dualplex ein guter Einstieg. Wenn du merkst, dass dir Genauigkeit, längere Antworten oder feinere Steuerung fehlen, lohnt sich ein Wechsel zu Pipeline.Kurzentscheidung
| Ziel | Tendenz |
|---|---|
| Erst einmal ausprobieren, gute Balance | Dualplex |
| Maximale Geschwindigkeit, kurze Dialoge | Speech-to-Speech |
| Starkes Reasoning, lange/komplexe Antworten, volle Pipeline-Kontrolle | Pipeline |

