managarten/docs/LOCAL_STT_MODELS.md
Till-JS d8b61d0058 📝 docs: add design UX guidelines and local model documentation
Add design-ux.md with UI patterns (inline editing, mobile-first,
animations). Add LOCAL_LLM_MODELS.md and LOCAL_STT_MODELS.md
documenting available AI models for the Mac Mini server.

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-01-27 01:32:31 +01:00

25 KiB
Raw Permalink Blame History

Lokale Speech-to-Text (STT) Modelle

Dieses Dokument beschreibt alle verfügbaren Speech-to-Text Modelle, die lokal auf dem Mac Mini Server (M4, 16 GB RAM) oder anderen Geräten gehostet werden können.

Inhaltsverzeichnis


Übersicht & Empfehlungen

Quick-Start Empfehlung

Anwendungsfall Empfohlenes Modell Warum
Beste Qualität (Multilingual) Whisper Large V3 Gold-Standard, 99+ Sprachen
Schnell & Gut Whisper Large V3 Turbo 6x schneller, ~1% weniger genau
Apple Silicon optimiert Lightning Whisper MLX 10x schneller als whisper.cpp
Echtzeit/Streaming NVIDIA Parakeet TDT Niedrigste Latenz
Edge/Raspberry Pi Moonshine Tiny 27M Parameter, CPU-fähig
Offline (20+ Sprachen) Vosk 50MB Modelle, kein Internet
Translation + ASR SeamlessM4T v2 100 Sprachen, Speech-to-Speech
Beste Deutsch-Qualität NVIDIA Canary 1B Explizit für EU-Sprachen optimiert
Lokal + Open Source Voxtral Mini (3B) Apache 2.0, 8 Sprachen, kompakt

OpenAI Whisper Familie

Überblick

Eigenschaft Details
Hersteller OpenAI
Erstveröffentlichung September 2022
Lizenz MIT
Sprachen 99+ Sprachen
Architektur Encoder-Decoder Transformer

Modellvarianten

Modell Parameter Größe VRAM Relative Geschw. WER (LibriSpeech)
tiny 39M 75 MB ~1 GB 32x ~8%
tiny.en 39M 75 MB ~1 GB 32x ~6%
base 74M 142 MB ~1 GB 16x ~5.5%
base.en 74M 142 MB ~1 GB 16x ~4.8%
small 244M 466 MB ~2 GB 6x ~4.2%
small.en 244M 466 MB ~2 GB 6x ~3.4%
medium 769M 1.5 GB ~5 GB 2x ~3.5%
medium.en 769M 1.5 GB ~5 GB 2x ~3.0%
large 1.55B 2.9 GB ~10 GB 1x ~2.9%
large-v2 1.55B 2.9 GB ~10 GB 1x ~2.7%
large-v3 1.55B 2.9 GB ~10 GB 1x ~2.5%
large-v3-turbo 809M 1.6 GB ~6 GB 6x ~2.6%

Whisper Large V3 (Gold-Standard)

Eigenschaft Details
Release November 2023
Parameter 1.55 Milliarden
Encoder 32 Schichten
Decoder 32 Schichten
Kontext 30 Sekunden Audio-Chunks
Sampling Rate 16 kHz

Stärken:

  • Höchste Genauigkeit bei allen Sprachen
  • Robustheit gegen Hintergrundgeräusche
  • Unterstützt Transkription + Übersetzung
  • Timestamps auf Wort-Ebene

Schwächen:

  • Langsam ohne GPU-Beschleunigung
  • Hoher VRAM-Bedarf (~10 GB)
  • Verarbeitet immer 30-Sekunden-Chunks

Whisper Large V3 Turbo

Eigenschaft Details
Release Oktober 2024
Parameter 809 Millionen
Encoder 32 Schichten
Decoder 4 Schichten (reduziert von 32)
Geschwindigkeit 6x schneller als Large V3
VRAM ~6 GB

Stärken:

  • Dramatisch schneller bei minimaler Qualitätseinbuße (~1-2% WER)
  • Multilingual wie Large V3
  • Ideal für Batch-Verarbeitung

Schwächen:

  • Etwas schlechter bei sehr langen Audios
  • Weniger stabil bei schwierigen Akzenten

Whisper-Implementierungen

Faster-Whisper (SYSTRAN)

Eigenschaft Details
Basis CTranslate2 (C++ Inferenz)
Geschwindigkeit 4x schneller als Original Whisper
VRAM 50% weniger durch INT8 Quantisierung
GitHub SYSTRAN/faster-whisper

Benchmarks (13 Min Audio, GPU):

Variante Zeit VRAM
faster-whisper int8 52.6s 2.95 GB
faster-distil-large-v3 fp16 26.1s 2.41 GB
faster-distil-large-v3 int8 22.5s 1.48 GB
faster-large-v3-turbo fp16 19.2s 2.54 GB
faster-large-v3-turbo int8 19.6s 1.55 GB

Installation:

pip install faster-whisper

Distil-Whisper (Hugging Face)

Eigenschaft Details
Hersteller Hugging Face
Parameter 756M (distil-large-v3)
Decoder 2 Schichten
Sprachen Nur Englisch
Geschwindigkeit 6x schneller als Large V3

Varianten:

  • distil-whisper/distil-large-v2 - Englisch
  • distil-whisper/distil-large-v3 - Englisch
  • distil-whisper/distil-large-v3.5 - Neueste Version, 1.5x schneller als Turbo

Stärken:

  • Kleinster Footprint bei hoher Qualität
  • Ideal für Englisch-only Anwendungen
  • Knowledge Distillation von Large V3

Schwächen:

  • Keine Multilingual-Unterstützung
  • Nicht für Übersetzung geeignet

Insanely-Fast-Whisper

Eigenschaft Details
Basis Hugging Face Transformers + Flash Attention
Geschwindigkeit 150 Min Audio in <98 Sek (A100)
GPU CUDA und MPS (Apple Silicon)
GitHub Vaibhavs10/insanely-fast-whisper

Installation:

pipx install insanely-fast-whisper
insanely-fast-whisper --file audio.mp3 --device-id mps

Apple Silicon Hinweis:

  • MPS-Backend weniger optimiert als CUDA
  • Empfohlen: --batch-size 4 (~12 GB GPU VRAM)

Lightning Whisper MLX (Apple Silicon)

Eigenschaft Details
Optimiert für Apple Silicon (M1/M2/M3/M4)
Framework Apple MLX
Geschwindigkeit 10x schneller als whisper.cpp, 4x schneller als mlx-whisper
GitHub mustafaaljadery/lightning-whisper-mlx

Unterstützte Modelle:

  • tiny, small, distil-small.en
  • base, medium, distil-medium.en
  • large, large-v2, distil-large-v2
  • large-v3, distil-large-v3

Installation:

pip install lightning-whisper-mlx

Nutzung:

from lightning_whisper_mlx import LightningWhisperMLX

whisper = LightningWhisperMLX(model="distil-large-v3", batch_size=12)
text = whisper.transcribe(audio_path="audio.mp3")

WhisperX

Eigenschaft Details
Features Alignment (Wort-Timing) + Diarization (Sprecher-Erkennung)
Basis Faster-Whisper + pyannote
GitHub m-bain/whisperX

Stärken:

  • Präzise Wort-Level Timestamps
  • Sprecher-Identifikation
  • Ideal für Untertitel, Meeting-Transkripte

Schwächen:

  • Langsamer (mehrere Modelle pro Audio)
  • Höherer Ressourcenbedarf

Mistral Voxtral

Überblick

Eigenschaft Details
Hersteller Mistral AI
Release Juli 2025
Lizenz Apache 2.0
Architektur Multimodale Audio-Text Transformer
Sprachen 8 Sprachen
Max. Audiodauer 30 Minuten pro Anfrage
Kontext 32K Token
Modellseite mistral.ai/voxtral

Modellvarianten

Modell Parameter Größe VRAM Verwendung
Voxtral Small 24B ~48 GB ~30 GB Produktions-Server, höchste Qualität
Voxtral Mini 3B ~6 GB ~4 GB Edge-Deployment, Mac Mini geeignet

Voxtral Small (24B)

Eigenschaft Details
Basis Mistral Small 3.1 (Instruction-tuned)
Audio-Encoder Multimodale Audio-Wahrnehmung
Parameter 24 Milliarden
Performance SOTA auf den meisten Benchmarks

Benchmarks vs. Konkurrenz:

Benchmark Voxtral Small Whisper Large V3 GPT-4o Mini Gemini 2.5 Flash
LibriSpeech Besser Referenz - -
CommonVoice Besser Referenz Besser Besser
Deutsch (CV) ~6-8% WER ~8-10% WER ~7% WER ~7% WER
Multilingual

Stärken:

  • Übertrifft Whisper Large V3 bei den meisten Tasks
  • Unterstützt bis zu 30 Min Audio in einem API-Aufruf
  • Transkription + Audio-zu-Text-Interaktion
  • Reasoning über Audio-Inhalte möglich
  • Apache 2.0 - vollständig Open Source

Schwächen:

  • Sehr großes Modell (24B Parameter)
  • Erfordert High-End Hardware für lokale Nutzung
  • Noch kein Ollama-Support (Stand Jan 2026)

Voxtral Mini (3B)

Eigenschaft Details
Parameter 3 Milliarden
Zielgruppe Edge/On-Device Deployment
VRAM ~4 GB
Geschwindigkeit ~5x schneller als Voxtral Small

Stärken:

  • Läuft auf Consumer-Hardware (Mac Mini M4 geeignet)
  • Gute Balance aus Qualität und Geschwindigkeit
  • Apache 2.0 Lizenz
  • Kompakt genug für lokale Installation

Schwächen:

  • Weniger genau als Voxtral Small
  • Derzeit noch keine offiziellen Benchmarks veröffentlicht

Unterstützte Sprachen

Sprache Qualität Anmerkung
Englisch Primärsprache
Deutsch Sehr gut unterstützt
Französisch Primärsprache (Mistral ist französisch)
Spanisch Gut unterstützt
Portugiesisch Gut unterstützt
Italienisch Gut unterstützt
Niederländisch Unterstützt
Hindi Unterstützt

Installation (wenn Ollama-Support verfügbar)

# Sobald Ollama-Support verfügbar ist (geschätzt Q1 2026):
ollama pull voxtral-mini:3b

# Alternativ über Hugging Face Transformers:
pip install transformers torch

Nutzung über Mistral API

from mistralai import Mistral
import base64

client = Mistral(api_key="your-api-key")

# Audio als Base64 kodieren
with open("audio.mp3", "rb") as f:
    audio_base64 = base64.b64encode(f.read()).decode()

response = client.chat.complete(
    model="voxtral-small-latest",
    messages=[{
        "role": "user",
        "content": [
            {"type": "audio_url", "audio_url": f"data:audio/mp3;base64,{audio_base64}"},
            {"type": "text", "text": "Transkribiere dieses Audio auf Deutsch."}
        ]
    }]
)
print(response.choices[0].message.content)

NVIDIA NeMo Modelle

NVIDIA Parakeet

Eigenschaft Details
Hersteller NVIDIA
Architektur FastConformer Encoder + CTC/RNN-T/TDT Decoder
Lizenz CC-BY-4.0
Trainingsdaten 64.000 Stunden (öffentlich + proprietär)

Modellvarianten:

Modell Parameter Geschwindigkeit (RTFx) Genauigkeit
Parakeet-CTC-0.6B 600M ~1500 Gut
Parakeet-TDT-0.6B-v3 600M ~2000+ Gut
Parakeet-RNNT-1.1B 1.1B ~800 Sehr gut

Stärken:

  • Extrem schnell (6.5x schneller als andere Modelle)
  • Unterstützt bis zu 24 Min Audio in einem Pass
  • Automatische Spracherkennung
  • Robust gegen Musik und Stille

Hardware:

  • Bis zu 11 Stunden Audio auf A100 80GB
  • Lokale Inferenz auf Consumer-GPUs möglich

NVIDIA Canary

Eigenschaft Details
Architektur FastConformer Encoder + Transformer Decoder
Parameter 1B (Canary-1B-v2)
Sprachen 25 Sprachen (EU + Russisch, Ukrainisch)
Tasks ASR + Übersetzung
VRAM ~6 GB minimum

Unterstützte Sprachen: Bulgarisch, Kroatisch, Tschechisch, Dänisch, Niederländisch, Englisch, Estnisch, Finnisch, Französisch, Deutsch, Griechisch, Ungarisch, Italienisch, Lettisch, Litauisch, Maltesisch, Polnisch, Portugiesisch, Rumänisch, Slowakisch, Slowenisch, Spanisch, Schwedisch, Russisch, Ukrainisch

Performance:

  • Übertrifft Whisper Large V3 auf FLEURS
  • RTFx von 749 (7-10x schneller als andere Modelle)
  • 20%-33% relative Verbesserung auf BABEL, MLS, CommonVoice

Moonshine

Eigenschaft Details
Hersteller Useful Sensors
Release Oktober 2024
Lizenz Moonshine AI Community License (kostenlos für <$1M Umsatz)
Architektur Encoder-Decoder Transformer mit RoPE
Trainingsdaten 200.000 Stunden Audio
GitHub usefulsensors/moonshine

Modellvarianten

Modell Parameter Größe Geschwindigkeit vs Whisper
moonshine-tiny 27.1M ~190 MB 5-10x schneller
moonshine-base 61.5M ~400 MB 5x schneller

Vergleich mit Whisper:

Modell Parameter
Moonshine Tiny 27.1M
Whisper tiny.en 37.8M
Moonshine Base 61.5M
Whisper base.en 72.6M

Stärken:

  • Skaliert Verarbeitung mit Audio-Länge (keine 30-Sek-Chunks)
  • Läuft auf Edge-Devices (Raspberry Pi, Smartphones)
  • Kein Internet erforderlich
  • Bessere Genauigkeit als vergleichbare Whisper-Modelle

Schwächen:

  • Nur Englisch (Basismodelle)
  • Kleinere Community als Whisper

Installation:

pip install moonshine

Vosk

Eigenschaft Details
Hersteller Alpha Cephei
Lizenz Apache 2.0
Sprachen 20+ Sprachen
Modellgröße 50 MB (portabel) - mehrere GB (Server)
GitHub alphacep/vosk-api

Unterstützte Sprachen

Englisch, Indisches Englisch, Deutsch, Französisch, Spanisch, Portugiesisch, Chinesisch, Russisch, Türkisch, Vietnamesisch, Italienisch, Niederländisch, Katalanisch, Arabisch, Griechisch, Farsi, Filipino, Ukrainisch, Kasachisch, Schwedisch, Japanisch, Esperanto, Hindi, Tschechisch, Polnisch, Usbekisch, Koreanisch, Bretonisch, Gujarati, Tadschikisch, Telugu, Kirgisisch

Modellgrößen

Typ Größe Verwendung
Tiny ~50 MB Mobil, Embedded
Small ~200 MB Desktop
Large 1-2 GB Server

Stärken:

  • Vollständig offline
  • Sehr kleine Modelle verfügbar
  • Echtzeit-Streaming
  • Läuft auf Raspberry Pi, Android, iOS
  • WebSocket/gRPC Server-Modus
  • Sprecher-Identifikation
  • Anpassbares Vokabular

Schwächen:

  • Geringere Genauigkeit als Whisper
  • Ältere Architektur

Installation:

pip install vosk

Meta Wav2Vec2 & SeamlessM4T

Wav2Vec2 / XLS-R

Eigenschaft Details
Hersteller Meta AI (Facebook)
Architektur Self-supervised Pre-training
Trainingsdaten 436.000 Stunden (XLS-R)
Sprachen 128 Sprachen

Modellvarianten:

Modell Parameter Verwendung
wav2vec2-base 95M Englisch
wav2vec2-large 317M Englisch
XLS-R-300M 300M Multilingual
XLS-R-1B 1B Multilingual
XLS-R-2B 2B Multilingual

Stärken:

  • Exzellent für Low-Resource Sprachen
  • Gute Basis für Fine-Tuning
  • 20%-33% Verbesserung über Prior-SOTA

Schwächen:

  • Muss für ASR fine-tuned werden
  • Nicht out-of-the-box nutzbar

SeamlessM4T v2

Eigenschaft Details
Hersteller Meta AI
Release Dezember 2023 (v2)
Lizenz CC-BY-NC-4.0
Architektur UnitY2 (Multimodal)
Trainingsdaten 1M Stunden Sprache, 470K Stunden Übersetzungen
GitHub facebookresearch/seamless_communication

Unterstützte Tasks:

Task Input Output
ASR Sprache Text
S2TT Sprache Text (andere Sprache)
S2ST Sprache Sprache (andere Sprache)
T2TT Text Text (andere Sprache)
T2ST Text Sprache (andere Sprache)

Sprachen: ~100 Sprachen für Spracheingabe, 200+ für Text

Stärken:

  • All-in-One Lösung für Übersetzung
  • Speech-to-Speech ohne Zwischenschritt
  • Erhält Prosodie und Sprechstil (SeamlessExpressive)
  • 20% BLEU Verbesserung über SOTA

Schwächen:

  • Sehr große Modelle
  • Hoher Ressourcenbedarf
  • Non-Commercial Lizenz

SpeechBrain

Eigenschaft Details
Typ Toolkit / Framework
Basis PyTorch
Lizenz Apache 2.0
GitHub speechbrain/speechbrain
Community 7.3K GitHub Stars, 140+ Entwickler

Unterstützte Tasks

  • Automatic Speech Recognition (ASR)
  • Speaker Recognition
  • Speech Enhancement
  • Speech Separation
  • Language Modeling
  • Text-to-Speech
  • Dialogue Systems

Vortrainierte Modelle

  • 200+ Trainingsrezepte
  • 100+ vortrainierte Modelle auf HuggingFace
  • 40+ Datasets
  • 20 Speech/Text Processing Tasks

Unterstützte Architekturen:

  • Whisper
  • Wav2Vec2 / HuBERT / WavLM
  • Conformer / Branchformer / HyperConformer
  • CRDNN

Stärken:

  • All-in-One Toolkit
  • Akademischer Hintergrund (30+ Universitäten)
  • Einfaches Fine-Tuning
  • Multi-GPU Training
  • Dynamisches Batching

Installation:

pip install speechbrain

Deutsche Sprachunterstützung

Word Error Rate (WER) für Deutsch

Die Word Error Rate (WER) ist das Standard-Maß für STT-Genauigkeit. Niedrigere Werte = besser.

Modell Deutsch WER Dataset Anmerkung
Whisper Large V3 5-8% CommonVoice Gold-Standard für Deutsch
Whisper Large V3 Turbo 6-9% CommonVoice Minimal schlechter als V3
Voxtral Small ~6-8% CommonVoice Vergleichbar mit Whisper V3
NVIDIA Canary 1B 5-7% CommonVoice Explizit für Deutsch optimiert
Whisper Medium 8-12% CommonVoice Gute Balance
SeamlessM4T v2 7-10% FLEURS Gut für Übersetzung
Whisper Small 12-18% CommonVoice Akzeptabel
Vosk German 15-20% - Älteres Modell
Whisper Base 20-30% CommonVoice Nur für Prototyping
Whisper Tiny 35-50% CommonVoice Nicht empfohlen für Deutsch

Deutsch als "Medium-Resource" Sprache

In der ASR-Forschung wird Deutsch als Medium-Resource Language klassifiziert:

  • High-Resource: Englisch, Mandarin, Spanisch
  • Medium-Resource: Deutsch, Französisch, Italienisch, Portugiesisch
  • Low-Resource: Kleinere Sprachen mit wenig Trainingsdaten

Das bedeutet:

  • Gute Modell-Performance möglich (5-10% WER)
  • Weniger Trainingsdaten als Englisch
  • Akzente (Schweizerdeutsch, Österreichisch, Dialekte) reduzieren Genauigkeit

Herausforderungen für Deutsch

Herausforderung Auswirkung Empfehlung
Dialekte +5-15% WER Large-Modelle verwenden
Zusammengesetzte Wörter Segmentierungsfehler Nachbearbeitung
Umgangssprache +3-8% WER Robuste Modelle (Whisper V3)
Fachvokabular OOV-Fehler Custom Vocabulary (Vosk)
Hintergrundgeräusche +10-20% WER Vorverarbeitung mit VAD

Modellempfehlungen für Deutsch

Szenario Empfohlenes Modell WER Begründung
Höchste Qualität Whisper Large V3 5-8% Beste Deutsch-Performance
Schnell & Gut Whisper Large V3 Turbo 6-9% 6x schneller, minimal schlechter
Server mit EU-Focus NVIDIA Canary 1B 5-7% Explizit für EU-Sprachen optimiert
Apple Silicon Lightning-Whisper-MLX (Large V3) 5-8% Native M-Chip Optimierung
Offline/Embedded Vosk German Large 15-20% Vollständig offline
Übersetzung DE→EN SeamlessM4T v2 7-10% Direkte Übersetzung
Budget/Prototyp Whisper Medium 8-12% Geringerer VRAM

Benchmark-Quellen

Die WER-Werte stammen aus folgenden Quellen:

  • CommonVoice 15.0 (Mozilla) - Crowdsourced Deutsch-Aufnahmen
  • FLEURS (Google) - Multilingual Benchmark
  • MLS German (Facebook) - Multilingual LibriSpeech
  • VoxPopuli (EU Parlament) - Reale Sprachaufnahmen

Wichtig: Real-World Performance ist oft 20-50% schlechter als akademische Benchmarks wegen:

  • Hintergrundgeräusche
  • Dialekte und Akzente
  • Telefon-/Kompressionsartefakte
  • Domain-spezifisches Vokabular

Vergleichstabellen

Genauigkeit vs. Geschwindigkeit

Modell WER (LibriSpeech) WER (Deutsch) Relative Geschw. VRAM
Whisper Large V3 2.5% 5-8% 1x 10 GB
Whisper Large V3 Turbo 2.6% 6-9% 6x 6 GB
Voxtral Small (24B) ~2.3% 6-8% 2x 30 GB
Voxtral Mini (3B) ~3.5% 8-12% 8x 4 GB
Distil-Large-v3.5 2.7% (nur EN) 9x 4 GB
NVIDIA Canary 1B ~2.4% 5-7% 7-10x 6 GB
Parakeet TDT 0.6B ~3.5% (nur EN) 20x+ 4 GB
Moonshine Base ~4.5% (nur EN) 5x 1 GB
Vosk Large ~5-6% 15-20% 3x 2 GB

Sprachunterstützung

Modell Sprachen Deutsch Deutsch WER Übersetzung
Whisper Large V3 99+ 5-8%
Whisper Large V3 Turbo 99+ 6-9%
Voxtral Small 8 6-8%
Voxtral Mini 8 8-12%
Canary 1B 25 5-7%
SeamlessM4T ~100 7-10%
Vosk 20+ 15-20%
XLS-R 128 10-15%*
Distil-Whisper 1 (EN) -
Moonshine 1 (EN) -

*XLS-R erfordert Fine-Tuning für ASR - Werte nach Fine-Tuning auf Deutsch

Hardware-Anforderungen

Modell Min. RAM GPU empfohlen Deutsch Raspberry Pi
Moonshine Tiny 500 MB
Vosk Small 500 MB
Whisper Tiny 1 GB Optional ⚠️ ⚠️
Whisper Base 1 GB Optional ⚠️
Whisper Small 2 GB Empfohlen
Voxtral Mini (3B) 4 GB Empfohlen
Whisper Medium 5 GB
Canary 1B 6 GB
Whisper Large 10 GB
Voxtral Small (24B) 30 GB

Empfehlungen für Mac Mini M4

Beste Optionen für 16 GB RAM

Priorität Modell Framework Deutsch Verwendung
1 Whisper Large V3 Turbo Lightning-Whisper-MLX 6-9% WER Beste Qualität, schnell
2 Voxtral Mini (3B) Transformers 8-12% WER Open Source (Apache 2.0), kompakt
3 Whisper Medium Lightning-Whisper-MLX 8-12% WER Gute Balance
4 Distil-Large-v3.5 Faster-Whisper nur EN Englisch-only, sehr schnell
5 Moonshine Base Native nur EN Ultra-schnell, CPU-only

Installation auf Mac Mini

# MLX-optimierte Whisper Installation
pip install lightning-whisper-mlx

# Oder Faster-Whisper für CPU/MPS
pip install faster-whisper

# Oder Moonshine für Edge
pip install moonshine

Beispiel-Integration

# Lightning Whisper MLX (empfohlen für Apple Silicon)
from lightning_whisper_mlx import LightningWhisperMLX

whisper = LightningWhisperMLX(model="large-v3-turbo", batch_size=12)
result = whisper.transcribe("audio.mp3")
print(result["text"])

# Mit Faster-Whisper
from faster_whisper import WhisperModel

model = WhisperModel("large-v3-turbo", device="cpu", compute_type="int8")
segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")

Offizielle Dokumentation

Benchmarks & Vergleiche

Hugging Face Modelle


Zuletzt aktualisiert: 26. Januar 2026 - Erweitert um Mistral Voxtral und Deutsche Sprachunterstützung