managarten/docs/LOCAL_LLM_MODELS.md
Till-JS d8b61d0058 📝 docs: add design UX guidelines and local model documentation
Add design-ux.md with UI patterns (inline editing, mobile-first,
animations). Add LOCAL_LLM_MODELS.md and LOCAL_STT_MODELS.md
documenting available AI models for the Mac Mini server.

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-01-27 01:32:31 +01:00

17 KiB
Raw Permalink Blame History

Lokale LLM-Modelle für ManaCore

Dieses Dokument beschreibt alle verfügbaren lokalen KI-Modelle für den Mac Mini Server (M4, 16 GB RAM) und deren Einsatzmöglichkeiten.

Aktuell Installierte Modelle

Modell Größe Vision Stärke Status
gemma3:4b 3.1 GB Allgemein, Multilingual (140+ Sprachen) Installiert
ministral-3:3b 2.75 GB 256K Kontext, Function Calling Installiert
qwen3-vl:4b 3.06 GB GUI-Automatisierung, Visual Coding Installiert
phi3.5:latest 2.02 GB Charts & Diagramme, 128K Kontext Installiert
deepseek-ocr:latest 6.22 GB OCR-Spezialist, 200K Seiten/Tag Installiert

Gesamtgröße: ~17.15 GB Freier Speicher: ~128 GB verbleibend


Modell-Übersicht nach Hersteller

Google - Gemma 3

Eigenschaft Details
Hersteller Google DeepMind
Release 12. März 2025
Lizenz Gemma License (kommerziell nutzbar)
Basis Gemini 2.0 Technologie
Downloads 30.7M (Ollama)

Verfügbare Größen

Variante Parameter Download RAM-Bedarf Kontext
gemma3:1b 1B ~0.8 GB ~2 GB 32K
gemma3:4b 4B 3.1 GB ~5 GB 128K
gemma3:12b 12B ~8 GB ~12 GB 128K
gemma3:27b 27B ~17 GB ~22 GB 128K

Stärken

  • Multimodal: Verarbeitet Bilder (896×896) für VQA, OCR, Dokumentenanalyse
  • Multilingual: 140+ Sprachen, übertrifft Llama 3 in mehrsprachigen Benchmarks
  • Effizienz: Läuft auf einzelner GPU/TPU, optimiert für Laptops und Smartphones
  • Großer Kontext: 128K Token Kontextfenster

Ideale Anwendungsfälle

  • Allgemeine Bildanalyse und Beschreibung
  • Mehrsprachige Konversation
  • Dokumentenverständnis
  • On-Device Deployment

Benchmarks

  • Chatbot Arena Elo: 1338 (27B)
  • Übertrifft vergleichbare Modelle bei 75% weniger VRAM durch Quantisierung

Quellen: Google Blog, DeepMind


Mistral AI - Ministral 3

Eigenschaft Details
Hersteller Mistral AI (Frankreich)
Release 2. Dezember 2025
Lizenz Apache 2.0
Basis Mistral 3 Familie
Downloads 314K (Ollama)

Verfügbare Größen

Variante Parameter Download RAM-Bedarf Kontext
ministral-3:3b 3B 2.75 GB ~5 GB 256K
ministral-3:8b 8B 6.0 GB ~9 GB 256K
ministral-3:14b 14B 9.1 GB ~13 GB 256K

Stärken

  • Vision: Bildanalyse und visuelle Inhaltsverarbeitung
  • Multilingual: 140+ Sprachen inkl. Deutsch, Chinesisch, Arabisch
  • Agentic Functions: Native Function Calling und JSON-Output
  • Reasoning: Spezielle Reasoning-Varianten verfügbar (85% auf AIME '25 mit 14B)
  • Riesiger Kontext: 256K Token (doppelt so viel wie Gemma)

Ideale Anwendungsfälle

  • Mehrsprachige Anwendungen
  • Agent-basierte Systeme mit Tool-Nutzung
  • Komplexe Reasoning-Aufgaben
  • Edge-Deployment auf Laptops/Robotern

Performance

  • RTX 5090: ~385 tokens/sec (3B Instruct)
  • Bestes Kosten-Leistungs-Verhältnis unter Open-Source-Modellen

Quellen: Mistral AI, Mistral Docs


Alibaba - Qwen 2.5 VL

Eigenschaft Details
Hersteller Alibaba Cloud / Qwen Team
Release Januar 2025
Lizenz Apache 2.0
Downloads 1.2M (Ollama)

Verfügbare Größen

Variante Parameter Download RAM-Bedarf Kontext
qwen2.5vl:3b 3B ~2.5 GB ~4 GB 128K
qwen2.5vl:7b 7B ~5 GB ~8 GB 128K
qwen2.5vl:72b 72B ~45 GB ~60 GB 128K

Stärken

  • OCR-Champion: 96.4% auf DocVQA (besser als GPT-4o)
  • Dokumentenanalyse: Tabellen, Charts, Diagramme, Formulare
  • Video-Verständnis: Analysiert Videos >1 Stunde mit sekundengenauen Segmenten
  • Visual Agent: Computer- und Smartphone-Steuerung
  • Strukturierte Ausgabe: JSON für Rechnungen, Formulare, Tabellen

Ideale Anwendungsfälle

  • Dokumenten-OCR und Datenextraktion
  • Finanz- und Commerce-Anwendungen
  • Video-Analyse und Q&A
  • Automatisierte Formularverarbeitung

Benchmarks

  • DocVQA: 96.4% (Bestwert)
  • OCRBenchV2 EN: 63.7% (>20 Punkte über GPT-4o)
  • MMMU: 70.2% (gleichauf mit Claude 3.5 Sonnet)

Quellen: Qwen Blog, Alibaba Cloud


Alibaba - Qwen 3 VL

Eigenschaft Details
Hersteller Alibaba Cloud / Qwen Team
Release September-Oktober 2025
Lizenz Apache 2.0
Downloads 1.2M (Ollama)

Verfügbare Größen

Variante Parameter Download RAM-Bedarf Kontext
qwen3-vl:2b 2B ~1.5 GB ~3 GB 256K
qwen3-vl:4b 4B ~3 GB ~5 GB 256K
qwen3-vl:8b 8B ~6 GB ~9 GB 256K
qwen3-vl:32b 32B ~20 GB ~26 GB 256K

Stärken

  • Visual Agent: PC/Mobile GUI-Steuerung, Tool-Nutzung
  • Visual Coding: Generiert Draw.io/HTML/CSS/JS aus Bildern/Videos
  • 3D Spatial Perception: Objektpositionen, Blickwinkel, Verdeckungen
  • OCR: 32 Sprachen (vs. 19 bei Vorgänger), robust bei schlechtem Licht
  • Multimodal Reasoning: Exzellent in STEM/Mathematik

Ideale Anwendungsfälle

  • GUI-Automatisierung und RPA
  • Code-Generierung aus Mockups
  • 3D-Szenenverständnis für Robotik
  • Wissenschaftliche Dokumentenanalyse

Quellen: GitHub Qwen3-VL, Ollama


Moondream

Eigenschaft Details
Hersteller Moondream (Open Source)
Release Kontinuierliche Updates seit 2024
Lizenz Apache 2.0
Downloads 571K (Ollama)

Verfügbare Größen

Variante Parameter Download RAM-Bedarf Kontext
moondream 1.86B ~1.5 GB ~3 GB 8K
moondream:0.5b 0.5B ~0.5 GB ~1 GB 8K

Stärken

  • Ultrakompakt: Läuft auf CPU und Raspberry Pi
  • Spezialisierte Skills: Object Detection, Pointing, Counting, OCR
  • Strukturierte Ausgabe: JSON, XML, Markdown, CSV
  • Grounded Reasoning: Räumliches Denken über Bildpositionen
  • Gaze Detection: Blickrichtungserkennung

Ideale Anwendungsfälle

  • Edge-Devices und IoT
  • Robotik und Embedded Systems
  • Echtzeit-Objekterkennung
  • Ressourcenbeschränkte Umgebungen

Benchmarks (2025-04-14 Release)

  • ScreenSpot UI: F1@0.5 von 60.3 auf 80.4
  • CountBenchQA: 80 auf 86.4
  • OCRBench: 58.3 auf 61.2
  • Inferenz: 123.4 tok/s auf RTX 3090 (mit compile())

Quellen: Moondream, Hugging Face


DeepSeek - OCR

Eigenschaft Details
Hersteller DeepSeek AI (China)
Release 20. Oktober 2025
Lizenz MIT
Downloads 124K (Ollama)

Verfügbare Größen

Variante Parameter Download RAM-Bedarf Kontext
deepseek-ocr:3b 3B ~2 GB ~4 GB 16K

Stärken

  • Extreme Kompression: Speichert Text als Bilder, spart 90%+ Tokens
  • OCR-Präzision: 97% bei <10x Kompression, 60% bei 20x
  • Durchsatz: 200K+ Seiten/Tag auf einzelner GPU
  • Innovative Architektur: DeepEncoder + DeepSeek3B-MoE

Ideale Anwendungsfälle

  • Massenhafte Dokumentendigitalisierung
  • Archiv-Scanning
  • PDF-zu-Text Konvertierung
  • Langzeit-Dokumentenspeicherung

Performance-Modi

  • Tiny: 64 Tokens @ 512×512
  • Small: 100 Tokens @ 640×640
  • Base: 256 Tokens @ 1024×1024
  • Large: 400 Tokens @ 1280×1280

Quellen: GitHub DeepSeek-OCR, MIT Technology Review


IBM - Granite 3.2 Vision

Eigenschaft Details
Hersteller IBM
Release 26. Februar 2025
Lizenz Apache 2.0
Downloads 684K (Ollama)

Verfügbare Größen

Variante Parameter Download RAM-Bedarf Kontext
granite3.2-vision:2b 2B ~1.5 GB ~3 GB 128K

Stärken

  • Enterprise-fokussiert: Speziell für Geschäftsdokumente trainiert
  • Dokumentenverständnis: Tabellen, Charts, Flowcharts, Diagramme
  • OCR-Champion: Platz 2 auf OCRBench Leaderboard
  • Synthetische Daten: 85M PDFs, 26M synthetische QA-Paare

Ideale Anwendungsfälle

  • Enterprise-Dokumentenverarbeitung
  • Business Intelligence aus Dokumenten
  • Automatisierte Berichtsanalyse
  • Compliance-Dokumentenprüfung

Benchmarks

  • Vergleichbar mit Llama 3.2 11B und Pixtral 12B bei 1/5 der Größe
  • DocVQA, ChartQA, AI2D, OCRBench: Top-Performance

Quellen: IBM Newsroom, Hugging Face


OpenBMB - MiniCPM-V

Eigenschaft Details
Hersteller OpenBMB / Tsinghua University
Release Kontinuierlich seit Februar 2024
Lizenz Apache 2.0
Downloads 4.5M (Ollama)

Verfügbare Größen

Variante Parameter Download RAM-Bedarf Kontext
minicpm-v 8B ~5 GB ~8 GB 32K

Stärken

  • GPT-4o Level: Übertrifft GPT-4o-latest und Gemini-2.0 Pro
  • Video-Verständnis: Bis zu 96x Kompression für Video-Tokens
  • Hybrid Thinking: Umschaltbar zwischen schnellem und tiefem Denken
  • Handschrift-OCR: Exzellent bei handgeschriebenen Texten
  • Mobile-optimiert: 17 tok/s auf iPhone 16 Pro Max

Ideale Anwendungsfälle

  • Mobile KI-Anwendungen
  • Video-Analyse und Zusammenfassung
  • Handschrift-Digitalisierung
  • Real-time Multimodal-Streaming

Versionshistorie

  • Feb 2024: MiniCPM-V 1.0
  • Mai 2024: MiniCPM-Llama3-V 2.5 (GPT-4V Level, 30+ Sprachen)
  • Aug 2024: MiniCPM-V 2.6 (Echtzeit-Video auf iPad)
  • Jan 2025: MiniCPM-o 2.6 (Sprache + Vision)
  • 2025: MiniCPM-V 4.5 (aktuell)

Quellen: GitHub MiniCPM-V


Meta - Llama 3.2 Vision

Eigenschaft Details
Hersteller Meta AI
Release 25. September 2024
Lizenz Llama 3.2 Community License
Downloads Millionen (verschiedene Plattformen)

Verfügbare Größen

Variante Parameter Download RAM-Bedarf Kontext
llama3.2-vision:11b 11B ~7 GB ~12 GB 128K
llama3.2-vision:90b 90B ~55 GB ~70 GB 128K

Stärken

  • High-Resolution: Bis zu 1120×1120 Pixel
  • Dokumente: Charts, Graphen, Handschrift-OCR
  • Visual Grounding: Objektlokalisierung per natürlicher Sprache
  • Multilingual: DE, FR, IT, PT, HI, ES, TH offiziell unterstützt

Ideale Anwendungsfälle

  • Dokumenten-Verständnis und Extraktion
  • Bildunterschriften-Generierung
  • Visuelle Assistenz
  • Datenextraktion aus Bildern

Training

  • 6B Bild-Text-Paare
  • 2.02M GPU-Stunden auf H100-80GB

Quellen: Meta AI Blog, Hugging Face


Microsoft - Phi-3 Vision

Eigenschaft Details
Hersteller Microsoft Research
Release 21. Mai 2024 (Phi-3), August 2024 (Phi-3.5)
Lizenz MIT
Downloads 183K (llava-phi3 auf Ollama)

Verfügbare Größen

Variante Parameter Download RAM-Bedarf Kontext
llava-phi3 3.8B ~2.5 GB ~5 GB 4K
phi3.5-vision 4.2B ~2.8 GB ~5 GB 128K

Stärken

  • Kompakt & Leistungsstark: Übertrifft Claude-3 Haiku und Gemini 1.0 Pro V
  • Charts & Diagramme: Besonders stark bei nicht-natürlichen Bildern
  • Multi-Frame: Bildvergleich, Zusammenfassung, Video-Analyse
  • Synthetische Daten: Hochwertige, reasoning-dichte Trainingsdaten

Ideale Anwendungsfälle

  • Chart- und Diagramm-Analyse
  • Technische Dokumentation
  • Business-Präsentationen
  • Edge-Deployment

Benchmarks (Phi-3.5)

  • MMMU: 40.2 → 43.0
  • MMBench: 80.5 → 81.9
  • TextVQA: 70.9 → 72.0

Quellen: Microsoft Azure Blog, Hugging Face


LLaVA (Large Language and Vision Assistant)

Eigenschaft Details
Hersteller University of Wisconsin-Madison / Microsoft
Release April 2023 (Original), kontinuierliche Updates
Lizenz Apache 2.0
Downloads Millionen (Pionier-Modell)

Verfügbare Varianten

Variante Release Basis Besonderheit
LLaVA 1.0 Apr 2023 Vicuna 7B Original
LLaVA 1.5 Okt 2023 Vicuna 13B Verbesserte Performance
LLaVA-NeXT Jan 2024 Verschiedene 4x mehr Pixel, 3 Aspect Ratios
LLaVA-OneVision Aug 2024 0.5B/7B/72B SOTA auf 47 Benchmarks
LLaVA-Mini 2025 Effizient 1 Token pro Bild, 77% weniger FLOPs

Stärken

  • Pionier: Erstes weit verbreitetes Vision-Language-Modell
  • Vielseitig: VQA, Captioning, kreative Textgenerierung
  • Gut dokumentiert: Umfangreiche Forschung und Community
  • Viele Varianten: Für jeden Anwendungsfall optimiert

Ideale Anwendungsfälle

  • Akademische Forschung
  • Prototyping von Vision-Anwendungen
  • Benchmark-Vergleiche
  • Finetuning für spezifische Domains

Quellen: LLaVA Website, GitHub


Empfehlungen nach Anwendungsfall

Für Mac Mini M4 (16 GB RAM)

Anwendungsfall Empfohlenes Modell Alternativ
Allgemeine Bildanalyse gemma3:4b ministral-3:3b
OCR / Dokumenten-Scan qwen2.5vl:3b deepseek-ocr:3b
Mehrsprachig ministral-3:3b gemma3:4b
Ultrakompakt / Edge moondream gemma3:1b
Enterprise-Dokumente granite3.2-vision:2b qwen2.5vl:3b
Video-Analyse minicpm-v qwen3-vl:4b
GUI-Automatisierung qwen3-vl:4b ministral-3:8b
Reasoning ministral-3:8b qwen3-vl:8b

Performance-Vergleich (geschätzt auf M4)

Modell Tokens/Sek First Token RAM
moondream ~80-100 <1s ~3 GB
gemma3:4b ~50-60 ~1s ~5 GB
ministral-3:3b ~50-60 ~1s ~5 GB
qwen2.5vl:3b ~45-55 ~1s ~4 GB
minicpm-v ~30-40 ~2s ~8 GB

Installationsbefehle

# Aktuell installiert
ollama pull gemma3:4b
ollama pull ministral-3:3b

# Empfohlene Erweiterungen
ollama pull qwen2.5vl:3b      # OCR-Champion
ollama pull moondream          # Ultrakompakt
ollama pull granite3.2-vision:2b  # Enterprise

# Optional (mehr RAM benötigt)
ollama pull ministral-3:8b    # Besseres Reasoning
ollama pull minicpm-v         # Video-Analyse
ollama pull qwen3-vl:4b       # GUI-Automatisierung

Offizielle Dokumentation

Hersteller-Seiten

Benchmarks und Vergleiche


Zuletzt aktualisiert: 26. Januar 2026