mirror of https://github.com/Memo-2023/mana-monorepo.git synced 2026-05-14 19:01:08 +02:00

Till-JS d8b61d0058 📝 docs: add design UX guidelines and local model documentation

Add design-ux.md with UI patterns (inline editing, mobile-first,
animations). Add LOCAL_LLM_MODELS.md and LOCAL_STT_MODELS.md
documenting available AI models for the Mac Mini server.

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

2026-01-27 01:32:31 +01:00

25 KiB

Raw Permalink Blame History

Lokale Speech-to-Text (STT) Modelle

Dieses Dokument beschreibt alle verfügbaren Speech-to-Text Modelle, die lokal auf dem Mac Mini Server (M4, 16 GB RAM) oder anderen Geräten gehostet werden können.

Übersicht & Empfehlungen

Quick-Start Empfehlung

Anwendungsfall	Empfohlenes Modell	Warum
Beste Qualität (Multilingual)	Whisper Large V3	Gold-Standard, 99+ Sprachen
Schnell & Gut	Whisper Large V3 Turbo	6x schneller, ~1% weniger genau
Apple Silicon optimiert	Lightning Whisper MLX	10x schneller als whisper.cpp
Echtzeit/Streaming	NVIDIA Parakeet TDT	Niedrigste Latenz
Edge/Raspberry Pi	Moonshine Tiny	27M Parameter, CPU-fähig
Offline (20+ Sprachen)	Vosk	50MB Modelle, kein Internet
Translation + ASR	SeamlessM4T v2	100 Sprachen, Speech-to-Speech
Beste Deutsch-Qualität	NVIDIA Canary 1B	Explizit für EU-Sprachen optimiert
Lokal + Open Source	Voxtral Mini (3B)	Apache 2.0, 8 Sprachen, kompakt

OpenAI Whisper Familie

Überblick

Eigenschaft	Details
Hersteller	OpenAI
Erstveröffentlichung	September 2022
Lizenz	MIT
Sprachen	99+ Sprachen
Architektur	Encoder-Decoder Transformer

Modellvarianten

Modell	Parameter	Größe	VRAM	Relative Geschw.	WER (LibriSpeech)
`tiny`	39M	75 MB	~1 GB	32x	~8%
`tiny.en`	39M	75 MB	~1 GB	32x	~6%
`base`	74M	142 MB	~1 GB	16x	~5.5%
`base.en`	74M	142 MB	~1 GB	16x	~4.8%
`small`	244M	466 MB	~2 GB	6x	~4.2%
`small.en`	244M	466 MB	~2 GB	6x	~3.4%
`medium`	769M	1.5 GB	~5 GB	2x	~3.5%
`medium.en`	769M	1.5 GB	~5 GB	2x	~3.0%
`large`	1.55B	2.9 GB	~10 GB	1x	~2.9%
`large-v2`	1.55B	2.9 GB	~10 GB	1x	~2.7%
`large-v3`	1.55B	2.9 GB	~10 GB	1x	~2.5%
`large-v3-turbo`	809M	1.6 GB	~6 GB	6x	~2.6%

Whisper Large V3 (Gold-Standard)

Eigenschaft	Details
Release	November 2023
Parameter	1.55 Milliarden
Encoder	32 Schichten
Decoder	32 Schichten
Kontext	30 Sekunden Audio-Chunks
Sampling Rate	16 kHz

Stärken:

Höchste Genauigkeit bei allen Sprachen
Robustheit gegen Hintergrundgeräusche
Unterstützt Transkription + Übersetzung
Timestamps auf Wort-Ebene

Schwächen:

Langsam ohne GPU-Beschleunigung
Hoher VRAM-Bedarf (~10 GB)
Verarbeitet immer 30-Sekunden-Chunks

Whisper Large V3 Turbo

Eigenschaft	Details
Release	Oktober 2024
Parameter	809 Millionen
Encoder	32 Schichten
Decoder	4 Schichten (reduziert von 32)
Geschwindigkeit	6x schneller als Large V3
VRAM	~6 GB

Stärken:

Dramatisch schneller bei minimaler Qualitätseinbuße (~1-2% WER)
Multilingual wie Large V3
Ideal für Batch-Verarbeitung

Schwächen:

Etwas schlechter bei sehr langen Audios
Weniger stabil bei schwierigen Akzenten

Whisper-Implementierungen

Faster-Whisper (SYSTRAN)

Eigenschaft	Details
Basis	CTranslate2 (C++ Inferenz)
Geschwindigkeit	4x schneller als Original Whisper
VRAM	50% weniger durch INT8 Quantisierung
GitHub	SYSTRAN/faster-whisper

Benchmarks (13 Min Audio, GPU):

Variante	Zeit	VRAM
faster-whisper int8	52.6s	2.95 GB
faster-distil-large-v3 fp16	26.1s	2.41 GB
faster-distil-large-v3 int8	22.5s	1.48 GB
faster-large-v3-turbo fp16	19.2s	2.54 GB
faster-large-v3-turbo int8	19.6s	1.55 GB

Installation:

pip install faster-whisper

Distil-Whisper (Hugging Face)

Eigenschaft	Details
Hersteller	Hugging Face
Parameter	756M (distil-large-v3)
Decoder	2 Schichten
Sprachen	Nur Englisch
Geschwindigkeit	6x schneller als Large V3

Varianten:

distil-whisper/distil-large-v2 - Englisch
distil-whisper/distil-large-v3 - Englisch
distil-whisper/distil-large-v3.5 - Neueste Version, 1.5x schneller als Turbo

Stärken:

Kleinster Footprint bei hoher Qualität
Ideal für Englisch-only Anwendungen
Knowledge Distillation von Large V3

Schwächen:

Keine Multilingual-Unterstützung
Nicht für Übersetzung geeignet

Insanely-Fast-Whisper

Eigenschaft	Details
Basis	Hugging Face Transformers + Flash Attention
Geschwindigkeit	150 Min Audio in <98 Sek (A100)
GPU	CUDA und MPS (Apple Silicon)
GitHub	Vaibhavs10/insanely-fast-whisper

Installation:

pipx install insanely-fast-whisper
insanely-fast-whisper --file audio.mp3 --device-id mps

Apple Silicon Hinweis:

MPS-Backend weniger optimiert als CUDA
Empfohlen: --batch-size 4 (~12 GB GPU VRAM)

Lightning Whisper MLX (Apple Silicon)

Eigenschaft	Details
Optimiert für	Apple Silicon (M1/M2/M3/M4)
Framework	Apple MLX
Geschwindigkeit	10x schneller als whisper.cpp, 4x schneller als mlx-whisper
GitHub	mustafaaljadery/lightning-whisper-mlx

Unterstützte Modelle:

tiny, small, distil-small.en
base, medium, distil-medium.en
large, large-v2, distil-large-v2
large-v3, distil-large-v3

Installation:

pip install lightning-whisper-mlx

Nutzung:

from lightning_whisper_mlx import LightningWhisperMLX

whisper = LightningWhisperMLX(model="distil-large-v3", batch_size=12)
text = whisper.transcribe(audio_path="audio.mp3")

WhisperX

Eigenschaft	Details
Features	Alignment (Wort-Timing) + Diarization (Sprecher-Erkennung)
Basis	Faster-Whisper + pyannote
GitHub	m-bain/whisperX

Stärken:

Präzise Wort-Level Timestamps
Sprecher-Identifikation
Ideal für Untertitel, Meeting-Transkripte

Schwächen:

Langsamer (mehrere Modelle pro Audio)
Höherer Ressourcenbedarf

Mistral Voxtral

Überblick

Eigenschaft	Details
Hersteller	Mistral AI
Release	Juli 2025
Lizenz	Apache 2.0
Architektur	Multimodale Audio-Text Transformer
Sprachen	8 Sprachen
Max. Audiodauer	30 Minuten pro Anfrage
Kontext	32K Token
Modellseite	mistral.ai/voxtral

Modellvarianten

Modell	Parameter	Größe	VRAM	Verwendung
Voxtral Small	24B	~48 GB	~30 GB	Produktions-Server, höchste Qualität
Voxtral Mini	3B	~6 GB	~4 GB	Edge-Deployment, Mac Mini geeignet

Voxtral Small (24B)

Eigenschaft	Details
Basis	Mistral Small 3.1 (Instruction-tuned)
Audio-Encoder	Multimodale Audio-Wahrnehmung
Parameter	24 Milliarden
Performance	SOTA auf den meisten Benchmarks

Benchmarks vs. Konkurrenz:

Benchmark	Voxtral Small	Whisper Large V3	GPT-4o Mini	Gemini 2.5 Flash
LibriSpeech	✅ Besser	Referenz	-	-
CommonVoice	✅ Besser	Referenz	✅ Besser	✅ Besser
Deutsch (CV)	~6-8% WER	~8-10% WER	~7% WER	~7% WER
Multilingual	✅	✅	✅	✅

Stärken:

Übertrifft Whisper Large V3 bei den meisten Tasks
Unterstützt bis zu 30 Min Audio in einem API-Aufruf
Transkription + Audio-zu-Text-Interaktion
Reasoning über Audio-Inhalte möglich
Apache 2.0 - vollständig Open Source

Schwächen:

Sehr großes Modell (24B Parameter)
Erfordert High-End Hardware für lokale Nutzung
Noch kein Ollama-Support (Stand Jan 2026)

Voxtral Mini (3B)

Eigenschaft	Details
Parameter	3 Milliarden
Zielgruppe	Edge/On-Device Deployment
VRAM	~4 GB
Geschwindigkeit	~5x schneller als Voxtral Small

Stärken:

Läuft auf Consumer-Hardware (Mac Mini M4 geeignet)
Gute Balance aus Qualität und Geschwindigkeit
Apache 2.0 Lizenz
Kompakt genug für lokale Installation

Schwächen:

Weniger genau als Voxtral Small
Derzeit noch keine offiziellen Benchmarks veröffentlicht

Unterstützte Sprachen

Sprache	Qualität	Anmerkung
Englisch	⭐⭐⭐⭐⭐	Primärsprache
Deutsch	⭐⭐⭐⭐	Sehr gut unterstützt
Französisch	⭐⭐⭐⭐⭐	Primärsprache (Mistral ist französisch)
Spanisch	⭐⭐⭐⭐	Gut unterstützt
Portugiesisch	⭐⭐⭐⭐	Gut unterstützt
Italienisch	⭐⭐⭐⭐	Gut unterstützt
Niederländisch	⭐⭐⭐	Unterstützt
Hindi	⭐⭐⭐	Unterstützt

Installation (wenn Ollama-Support verfügbar)

# Sobald Ollama-Support verfügbar ist (geschätzt Q1 2026):
ollama pull voxtral-mini:3b

# Alternativ über Hugging Face Transformers:
pip install transformers torch

Nutzung über Mistral API

from mistralai import Mistral
import base64

client = Mistral(api_key="your-api-key")

# Audio als Base64 kodieren
with open("audio.mp3", "rb") as f:
    audio_base64 = base64.b64encode(f.read()).decode()

response = client.chat.complete(
    model="voxtral-small-latest",
    messages=[{
        "role": "user",
        "content": [
            {"type": "audio_url", "audio_url": f"data:audio/mp3;base64,{audio_base64}"},
            {"type": "text", "text": "Transkribiere dieses Audio auf Deutsch."}
        ]
    }]
)
print(response.choices[0].message.content)

NVIDIA NeMo Modelle

NVIDIA Parakeet

Eigenschaft	Details
Hersteller	NVIDIA
Architektur	FastConformer Encoder + CTC/RNN-T/TDT Decoder
Lizenz	CC-BY-4.0
Trainingsdaten	64.000 Stunden (öffentlich + proprietär)

Modellvarianten:

Modell	Parameter	Geschwindigkeit (RTFx)	Genauigkeit
Parakeet-CTC-0.6B	600M	~1500	Gut
Parakeet-TDT-0.6B-v3	600M	~2000+	Gut
Parakeet-RNNT-1.1B	1.1B	~800	Sehr gut

Stärken:

Extrem schnell (6.5x schneller als andere Modelle)
Unterstützt bis zu 24 Min Audio in einem Pass
Automatische Spracherkennung
Robust gegen Musik und Stille

Hardware:

Bis zu 11 Stunden Audio auf A100 80GB
Lokale Inferenz auf Consumer-GPUs möglich

NVIDIA Canary

Eigenschaft	Details
Architektur	FastConformer Encoder + Transformer Decoder
Parameter	1B (Canary-1B-v2)
Sprachen	25 Sprachen (EU + Russisch, Ukrainisch)
Tasks	ASR + Übersetzung
VRAM	~6 GB minimum

Unterstützte Sprachen: Bulgarisch, Kroatisch, Tschechisch, Dänisch, Niederländisch, Englisch, Estnisch, Finnisch, Französisch, Deutsch, Griechisch, Ungarisch, Italienisch, Lettisch, Litauisch, Maltesisch, Polnisch, Portugiesisch, Rumänisch, Slowakisch, Slowenisch, Spanisch, Schwedisch, Russisch, Ukrainisch

Performance:

Übertrifft Whisper Large V3 auf FLEURS
RTFx von 749 (7-10x schneller als andere Modelle)
20%-33% relative Verbesserung auf BABEL, MLS, CommonVoice

Moonshine

Eigenschaft	Details
Hersteller	Useful Sensors
Release	Oktober 2024
Lizenz	Moonshine AI Community License (kostenlos für <$1M Umsatz)
Architektur	Encoder-Decoder Transformer mit RoPE
Trainingsdaten	200.000 Stunden Audio
GitHub	usefulsensors/moonshine

Modellvarianten

Modell	Parameter	Größe	Geschwindigkeit vs Whisper
`moonshine-tiny`	27.1M	~190 MB	5-10x schneller
`moonshine-base`	61.5M	~400 MB	5x schneller

Vergleich mit Whisper:

Modell	Parameter
Moonshine Tiny	27.1M
Whisper tiny.en	37.8M
Moonshine Base	61.5M
Whisper base.en	72.6M

Stärken:

Skaliert Verarbeitung mit Audio-Länge (keine 30-Sek-Chunks)
Läuft auf Edge-Devices (Raspberry Pi, Smartphones)
Kein Internet erforderlich
Bessere Genauigkeit als vergleichbare Whisper-Modelle

Schwächen:

Nur Englisch (Basismodelle)
Kleinere Community als Whisper

Installation:

pip install moonshine

Vosk

Eigenschaft	Details
Hersteller	Alpha Cephei
Lizenz	Apache 2.0
Sprachen	20+ Sprachen
Modellgröße	50 MB (portabel) - mehrere GB (Server)
GitHub	alphacep/vosk-api

Unterstützte Sprachen

Englisch, Indisches Englisch, Deutsch, Französisch, Spanisch, Portugiesisch, Chinesisch, Russisch, Türkisch, Vietnamesisch, Italienisch, Niederländisch, Katalanisch, Arabisch, Griechisch, Farsi, Filipino, Ukrainisch, Kasachisch, Schwedisch, Japanisch, Esperanto, Hindi, Tschechisch, Polnisch, Usbekisch, Koreanisch, Bretonisch, Gujarati, Tadschikisch, Telugu, Kirgisisch

Modellgrößen

Typ	Größe	Verwendung
Tiny	~50 MB	Mobil, Embedded
Small	~200 MB	Desktop
Large	1-2 GB	Server

Stärken:

Vollständig offline
Sehr kleine Modelle verfügbar
Echtzeit-Streaming
Läuft auf Raspberry Pi, Android, iOS
WebSocket/gRPC Server-Modus
Sprecher-Identifikation
Anpassbares Vokabular

Schwächen:

Geringere Genauigkeit als Whisper
Ältere Architektur

Installation:

pip install vosk

Meta Wav2Vec2 & SeamlessM4T

Wav2Vec2 / XLS-R

Eigenschaft	Details
Hersteller	Meta AI (Facebook)
Architektur	Self-supervised Pre-training
Trainingsdaten	436.000 Stunden (XLS-R)
Sprachen	128 Sprachen

Modellvarianten:

Modell	Parameter	Verwendung
wav2vec2-base	95M	Englisch
wav2vec2-large	317M	Englisch
XLS-R-300M	300M	Multilingual
XLS-R-1B	1B	Multilingual
XLS-R-2B	2B	Multilingual

Stärken:

Exzellent für Low-Resource Sprachen
Gute Basis für Fine-Tuning
20%-33% Verbesserung über Prior-SOTA

Schwächen:

Muss für ASR fine-tuned werden
Nicht out-of-the-box nutzbar

SeamlessM4T v2

Eigenschaft	Details
Hersteller	Meta AI
Release	Dezember 2023 (v2)
Lizenz	CC-BY-NC-4.0
Architektur	UnitY2 (Multimodal)
Trainingsdaten	1M Stunden Sprache, 470K Stunden Übersetzungen
GitHub	facebookresearch/seamless_communication

Unterstützte Tasks:

Task	Input	Output
ASR	Sprache	Text
S2TT	Sprache	Text (andere Sprache)
S2ST	Sprache	Sprache (andere Sprache)
T2TT	Text	Text (andere Sprache)
T2ST	Text	Sprache (andere Sprache)

Sprachen: ~100 Sprachen für Spracheingabe, 200+ für Text

Stärken:

All-in-One Lösung für Übersetzung
Speech-to-Speech ohne Zwischenschritt
Erhält Prosodie und Sprechstil (SeamlessExpressive)
20% BLEU Verbesserung über SOTA

Schwächen:

Sehr große Modelle
Hoher Ressourcenbedarf
Non-Commercial Lizenz

SpeechBrain

Eigenschaft	Details
Typ	Toolkit / Framework
Basis	PyTorch
Lizenz	Apache 2.0
GitHub	speechbrain/speechbrain
Community	7.3K GitHub Stars, 140+ Entwickler

Unterstützte Tasks

Automatic Speech Recognition (ASR)
Speaker Recognition
Speech Enhancement
Speech Separation
Language Modeling
Text-to-Speech
Dialogue Systems

Vortrainierte Modelle

200+ Trainingsrezepte
100+ vortrainierte Modelle auf HuggingFace
40+ Datasets
20 Speech/Text Processing Tasks

Unterstützte Architekturen:

Whisper
Wav2Vec2 / HuBERT / WavLM
Conformer / Branchformer / HyperConformer
CRDNN

Stärken:

All-in-One Toolkit
Akademischer Hintergrund (30+ Universitäten)
Einfaches Fine-Tuning
Multi-GPU Training
Dynamisches Batching

Installation:

pip install speechbrain

Deutsche Sprachunterstützung

Word Error Rate (WER) für Deutsch

Die Word Error Rate (WER) ist das Standard-Maß für STT-Genauigkeit. Niedrigere Werte = besser.

Modell	Deutsch WER	Dataset	Anmerkung
Whisper Large V3	5-8%	CommonVoice	Gold-Standard für Deutsch
Whisper Large V3 Turbo	6-9%	CommonVoice	Minimal schlechter als V3
Voxtral Small	~6-8%	CommonVoice	Vergleichbar mit Whisper V3
NVIDIA Canary 1B	5-7%	CommonVoice	Explizit für Deutsch optimiert
Whisper Medium	8-12%	CommonVoice	Gute Balance
SeamlessM4T v2	7-10%	FLEURS	Gut für Übersetzung
Whisper Small	12-18%	CommonVoice	Akzeptabel
Vosk German	15-20%	-	Älteres Modell
Whisper Base	20-30%	CommonVoice	Nur für Prototyping
Whisper Tiny	35-50%	CommonVoice	Nicht empfohlen für Deutsch

Deutsch als "Medium-Resource" Sprache

In der ASR-Forschung wird Deutsch als Medium-Resource Language klassifiziert:

High-Resource: Englisch, Mandarin, Spanisch
Medium-Resource: Deutsch, Französisch, Italienisch, Portugiesisch
Low-Resource: Kleinere Sprachen mit wenig Trainingsdaten

Das bedeutet:

Gute Modell-Performance möglich (5-10% WER)
Weniger Trainingsdaten als Englisch
Akzente (Schweizerdeutsch, Österreichisch, Dialekte) reduzieren Genauigkeit

Herausforderungen für Deutsch

Herausforderung	Auswirkung	Empfehlung
Dialekte	+5-15% WER	Large-Modelle verwenden
Zusammengesetzte Wörter	Segmentierungsfehler	Nachbearbeitung
Umgangssprache	+3-8% WER	Robuste Modelle (Whisper V3)
Fachvokabular	OOV-Fehler	Custom Vocabulary (Vosk)
Hintergrundgeräusche	+10-20% WER	Vorverarbeitung mit VAD

Modellempfehlungen für Deutsch

Szenario	Empfohlenes Modell	WER	Begründung
Höchste Qualität	Whisper Large V3	5-8%	Beste Deutsch-Performance
Schnell & Gut	Whisper Large V3 Turbo	6-9%	6x schneller, minimal schlechter
Server mit EU-Focus	NVIDIA Canary 1B	5-7%	Explizit für EU-Sprachen optimiert
Apple Silicon	Lightning-Whisper-MLX (Large V3)	5-8%	Native M-Chip Optimierung
Offline/Embedded	Vosk German Large	15-20%	Vollständig offline
Übersetzung DE→EN	SeamlessM4T v2	7-10%	Direkte Übersetzung
Budget/Prototyp	Whisper Medium	8-12%	Geringerer VRAM

Benchmark-Quellen

Die WER-Werte stammen aus folgenden Quellen:

CommonVoice 15.0 (Mozilla) - Crowdsourced Deutsch-Aufnahmen
FLEURS (Google) - Multilingual Benchmark
MLS German (Facebook) - Multilingual LibriSpeech
VoxPopuli (EU Parlament) - Reale Sprachaufnahmen

Wichtig: Real-World Performance ist oft 20-50% schlechter als akademische Benchmarks wegen:

Hintergrundgeräusche
Dialekte und Akzente
Telefon-/Kompressionsartefakte
Domain-spezifisches Vokabular

Vergleichstabellen

Genauigkeit vs. Geschwindigkeit

Modell	WER (LibriSpeech)	WER (Deutsch)	Relative Geschw.	VRAM
Whisper Large V3	2.5%	5-8%	1x	10 GB
Whisper Large V3 Turbo	2.6%	6-9%	6x	6 GB
Voxtral Small (24B)	~2.3%	6-8%	2x	30 GB
Voxtral Mini (3B)	~3.5%	8-12%	8x	4 GB
Distil-Large-v3.5	2.7%	❌ (nur EN)	9x	4 GB
NVIDIA Canary 1B	~2.4%	5-7%	7-10x	6 GB
Parakeet TDT 0.6B	~3.5%	❌ (nur EN)	20x+	4 GB
Moonshine Base	~4.5%	❌ (nur EN)	5x	1 GB
Vosk Large	~5-6%	15-20%	3x	2 GB

Sprachunterstützung

Modell	Sprachen	Deutsch	Deutsch WER	Übersetzung
Whisper Large V3	99+	✅	5-8%	✅
Whisper Large V3 Turbo	99+	✅	6-9%	✅
Voxtral Small	8	✅	6-8%	❌
Voxtral Mini	8	✅	8-12%	❌
Canary 1B	25	✅ ⭐	5-7%	✅
SeamlessM4T	~100	✅	7-10%	✅
Vosk	20+	✅	15-20%	❌
XLS-R	128	✅	10-15%*	❌
Distil-Whisper	1 (EN)	❌	-	❌
Moonshine	1 (EN)	❌	-	❌

*XLS-R erfordert Fine-Tuning für ASR - Werte nach Fine-Tuning auf Deutsch

Hardware-Anforderungen

Modell	Min. RAM	GPU empfohlen	Deutsch	Raspberry Pi
Moonshine Tiny	500 MB	❌	❌	✅
Vosk Small	500 MB	❌	✅	✅
Whisper Tiny	1 GB	Optional	⚠️	⚠️
Whisper Base	1 GB	Optional	⚠️	❌
Whisper Small	2 GB	Empfohlen	✅	❌
Voxtral Mini (3B)	4 GB	Empfohlen	✅	❌
Whisper Medium	5 GB	✅	✅	❌
Canary 1B	6 GB	✅	✅ ⭐	❌
Whisper Large	10 GB	✅	✅	❌
Voxtral Small (24B)	30 GB	✅	✅	❌

Empfehlungen für Mac Mini M4

Beste Optionen für 16 GB RAM

Priorität	Modell	Framework	Deutsch	Verwendung
1️⃣	Whisper Large V3 Turbo	Lightning-Whisper-MLX	✅ 6-9% WER	Beste Qualität, schnell
2️⃣	Voxtral Mini (3B)	Transformers	✅ 8-12% WER	Open Source (Apache 2.0), kompakt
3️⃣	Whisper Medium	Lightning-Whisper-MLX	✅ 8-12% WER	Gute Balance
4️⃣	Distil-Large-v3.5	Faster-Whisper	❌ nur EN	Englisch-only, sehr schnell
5️⃣	Moonshine Base	Native	❌ nur EN	Ultra-schnell, CPU-only

Installation auf Mac Mini

# MLX-optimierte Whisper Installation
pip install lightning-whisper-mlx

# Oder Faster-Whisper für CPU/MPS
pip install faster-whisper

# Oder Moonshine für Edge
pip install moonshine

Beispiel-Integration

# Lightning Whisper MLX (empfohlen für Apple Silicon)
from lightning_whisper_mlx import LightningWhisperMLX

whisper = LightningWhisperMLX(model="large-v3-turbo", batch_size=12)
result = whisper.transcribe("audio.mp3")
print(result["text"])

# Mit Faster-Whisper
from faster_whisper import WhisperModel

model = WhisperModel("large-v3-turbo", device="cpu", compute_type="int8")
segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")

Quellen und Links

Offizielle Dokumentation

OpenAI Whisper
Faster-Whisper
Lightning Whisper MLX
Mistral Voxtral - Mistral AI STT Modelle
NVIDIA NeMo
Moonshine
Vosk
SpeechBrain
SeamlessM4T

Benchmarks & Vergleiche

Hugging Face Modelle

Zuletzt aktualisiert: 26. Januar 2026 - Erweitert um Mistral Voxtral und Deutsche Sprachunterstützung

25 KiB Raw Permalink Blame History Unescape Escape

Lokale Speech-to-Text (STT) Modelle

Inhaltsverzeichnis

Übersicht & Empfehlungen

Quick-Start Empfehlung

OpenAI Whisper Familie

Überblick

Modellvarianten

Whisper Large V3 (Gold-Standard)

Whisper Large V3 Turbo

Whisper-Implementierungen

Faster-Whisper (SYSTRAN)

Distil-Whisper (Hugging Face)

Insanely-Fast-Whisper

Lightning Whisper MLX (Apple Silicon)

WhisperX

Mistral Voxtral

Überblick

Modellvarianten

Voxtral Small (24B)

Voxtral Mini (3B)

Unterstützte Sprachen

Installation (wenn Ollama-Support verfügbar)

Nutzung über Mistral API

NVIDIA NeMo Modelle

NVIDIA Parakeet

NVIDIA Canary

Moonshine

Modellvarianten

Vosk

Unterstützte Sprachen

Modellgrößen

Meta Wav2Vec2 & SeamlessM4T

Wav2Vec2 / XLS-R

SeamlessM4T v2

SpeechBrain

Unterstützte Tasks

Vortrainierte Modelle

Deutsche Sprachunterstützung

Word Error Rate (WER) für Deutsch

Deutsch als "Medium-Resource" Sprache

Herausforderungen für Deutsch

Modellempfehlungen für Deutsch

Benchmark-Quellen

Vergleichstabellen

Genauigkeit vs. Geschwindigkeit

Sprachunterstützung

Hardware-Anforderungen

Empfehlungen für Mac Mini M4

Beste Optionen für 16 GB RAM

Installation auf Mac Mini

Beispiel-Integration

Quellen und Links

Offizielle Dokumentation

Benchmarks & Vergleiche

Hugging Face Modelle

25 KiB

Raw Permalink Blame History