mirror of https://github.com/Memo-2023/mana-monorepo.git synced 2026-05-14 21:21:10 +02:00

Till-JS d8b61d0058 📝 docs: add design UX guidelines and local model documentation

Add design-ux.md with UI patterns (inline editing, mobile-first,
animations). Add LOCAL_LLM_MODELS.md and LOCAL_STT_MODELS.md
documenting available AI models for the Mac Mini server.

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

2026-01-27 01:32:31 +01:00

17 KiB

Raw Permalink Blame History

Lokale LLM-Modelle für ManaCore

Dieses Dokument beschreibt alle verfügbaren lokalen KI-Modelle für den Mac Mini Server (M4, 16 GB RAM) und deren Einsatzmöglichkeiten.

Aktuell Installierte Modelle

Modell	Größe	Vision	Stärke	Status
`gemma3:4b`	3.1 GB	✅	Allgemein, Multilingual (140+ Sprachen)	✅ Installiert
`ministral-3:3b`	2.75 GB	✅	256K Kontext, Function Calling	✅ Installiert
`qwen3-vl:4b`	3.06 GB	✅	GUI-Automatisierung, Visual Coding	✅ Installiert
`phi3.5:latest`	2.02 GB	✅	Charts & Diagramme, 128K Kontext	✅ Installiert
`deepseek-ocr:latest`	6.22 GB	✅	OCR-Spezialist, 200K Seiten/Tag	✅ Installiert

Gesamtgröße: ~17.15 GB Freier Speicher: ~128 GB verbleibend

Modell-Übersicht nach Hersteller

Google - Gemma 3

Eigenschaft	Details
Hersteller	Google DeepMind
Release	12. März 2025
Lizenz	Gemma License (kommerziell nutzbar)
Basis	Gemini 2.0 Technologie
Downloads	30.7M (Ollama)

Verfügbare Größen

Variante	Parameter	Download	RAM-Bedarf	Kontext
`gemma3:1b`	1B	~0.8 GB	~2 GB	32K
`gemma3:4b` ✅	4B	3.1 GB	~5 GB	128K
`gemma3:12b`	12B	~8 GB	~12 GB	128K
`gemma3:27b`	27B	~17 GB	~22 GB	128K

Stärken

Multimodal: Verarbeitet Bilder (896×896) für VQA, OCR, Dokumentenanalyse
Multilingual: 140+ Sprachen, übertrifft Llama 3 in mehrsprachigen Benchmarks
Effizienz: Läuft auf einzelner GPU/TPU, optimiert für Laptops und Smartphones
Großer Kontext: 128K Token Kontextfenster

Ideale Anwendungsfälle

Allgemeine Bildanalyse und Beschreibung
Mehrsprachige Konversation
Dokumentenverständnis
On-Device Deployment

Benchmarks

Chatbot Arena Elo: 1338 (27B)
Übertrifft vergleichbare Modelle bei 75% weniger VRAM durch Quantisierung

Quellen: Google Blog, DeepMind

Mistral AI - Ministral 3

Eigenschaft	Details
Hersteller	Mistral AI (Frankreich)
Release	2. Dezember 2025
Lizenz	Apache 2.0
Basis	Mistral 3 Familie
Downloads	314K (Ollama)

Verfügbare Größen

Variante	Parameter	Download	RAM-Bedarf	Kontext
`ministral-3:3b` ✅	3B	2.75 GB	~5 GB	256K
`ministral-3:8b`	8B	6.0 GB	~9 GB	256K
`ministral-3:14b`	14B	9.1 GB	~13 GB	256K

Stärken

Vision: Bildanalyse und visuelle Inhaltsverarbeitung
Multilingual: 140+ Sprachen inkl. Deutsch, Chinesisch, Arabisch
Agentic Functions: Native Function Calling und JSON-Output
Reasoning: Spezielle Reasoning-Varianten verfügbar (85% auf AIME '25 mit 14B)
Riesiger Kontext: 256K Token (doppelt so viel wie Gemma)

Ideale Anwendungsfälle

Mehrsprachige Anwendungen
Agent-basierte Systeme mit Tool-Nutzung
Komplexe Reasoning-Aufgaben
Edge-Deployment auf Laptops/Robotern

Performance

RTX 5090: ~385 tokens/sec (3B Instruct)
Bestes Kosten-Leistungs-Verhältnis unter Open-Source-Modellen

Quellen: Mistral AI, Mistral Docs

Alibaba - Qwen 2.5 VL

Eigenschaft	Details
Hersteller	Alibaba Cloud / Qwen Team
Release	Januar 2025
Lizenz	Apache 2.0
Downloads	1.2M (Ollama)

Verfügbare Größen

Variante	Parameter	Download	RAM-Bedarf	Kontext
`qwen2.5vl:3b`	3B	~2.5 GB	~4 GB	128K
`qwen2.5vl:7b`	7B	~5 GB	~8 GB	128K
`qwen2.5vl:72b`	72B	~45 GB	~60 GB	128K

Stärken

OCR-Champion: 96.4% auf DocVQA (besser als GPT-4o)
Dokumentenanalyse: Tabellen, Charts, Diagramme, Formulare
Video-Verständnis: Analysiert Videos >1 Stunde mit sekundengenauen Segmenten
Visual Agent: Computer- und Smartphone-Steuerung
Strukturierte Ausgabe: JSON für Rechnungen, Formulare, Tabellen

Ideale Anwendungsfälle

Dokumenten-OCR und Datenextraktion
Finanz- und Commerce-Anwendungen
Video-Analyse und Q&A
Automatisierte Formularverarbeitung

Benchmarks

DocVQA: 96.4% (Bestwert)
OCRBenchV2 EN: 63.7% (>20 Punkte über GPT-4o)
MMMU: 70.2% (gleichauf mit Claude 3.5 Sonnet)

Quellen: Qwen Blog, Alibaba Cloud

Alibaba - Qwen 3 VL

Eigenschaft	Details
Hersteller	Alibaba Cloud / Qwen Team
Release	September-Oktober 2025
Lizenz	Apache 2.0
Downloads	1.2M (Ollama)

Verfügbare Größen

Variante	Parameter	Download	RAM-Bedarf	Kontext
`qwen3-vl:2b`	2B	~1.5 GB	~3 GB	256K
`qwen3-vl:4b`	4B	~3 GB	~5 GB	256K
`qwen3-vl:8b`	8B	~6 GB	~9 GB	256K
`qwen3-vl:32b`	32B	~20 GB	~26 GB	256K

Stärken

Visual Agent: PC/Mobile GUI-Steuerung, Tool-Nutzung
Visual Coding: Generiert Draw.io/HTML/CSS/JS aus Bildern/Videos
3D Spatial Perception: Objektpositionen, Blickwinkel, Verdeckungen
OCR: 32 Sprachen (vs. 19 bei Vorgänger), robust bei schlechtem Licht
Multimodal Reasoning: Exzellent in STEM/Mathematik

Ideale Anwendungsfälle

GUI-Automatisierung und RPA
Code-Generierung aus Mockups
3D-Szenenverständnis für Robotik
Wissenschaftliche Dokumentenanalyse

Quellen: GitHub Qwen3-VL, Ollama

Moondream

Eigenschaft	Details
Hersteller	Moondream (Open Source)
Release	Kontinuierliche Updates seit 2024
Lizenz	Apache 2.0
Downloads	571K (Ollama)

Verfügbare Größen

Variante	Parameter	Download	RAM-Bedarf	Kontext
`moondream`	1.86B	~1.5 GB	~3 GB	8K
`moondream:0.5b`	0.5B	~0.5 GB	~1 GB	8K

Stärken

Ultrakompakt: Läuft auf CPU und Raspberry Pi
Spezialisierte Skills: Object Detection, Pointing, Counting, OCR
Strukturierte Ausgabe: JSON, XML, Markdown, CSV
Grounded Reasoning: Räumliches Denken über Bildpositionen
Gaze Detection: Blickrichtungserkennung

Ideale Anwendungsfälle

Edge-Devices und IoT
Robotik und Embedded Systems
Echtzeit-Objekterkennung
Ressourcenbeschränkte Umgebungen

Benchmarks (2025-04-14 Release)

ScreenSpot UI: F1@0.5 von 60.3 auf 80.4
CountBenchQA: 80 auf 86.4
OCRBench: 58.3 auf 61.2
Inferenz: 123.4 tok/s auf RTX 3090 (mit compile())

Quellen: Moondream, Hugging Face

DeepSeek - OCR

Eigenschaft	Details
Hersteller	DeepSeek AI (China)
Release	20. Oktober 2025
Lizenz	MIT
Downloads	124K (Ollama)

Verfügbare Größen

Variante	Parameter	Download	RAM-Bedarf	Kontext
`deepseek-ocr:3b`	3B	~2 GB	~4 GB	16K

Stärken

Extreme Kompression: Speichert Text als Bilder, spart 90%+ Tokens
OCR-Präzision: 97% bei <10x Kompression, 60% bei 20x
Durchsatz: 200K+ Seiten/Tag auf einzelner GPU
Innovative Architektur: DeepEncoder + DeepSeek3B-MoE

Ideale Anwendungsfälle

Massenhafte Dokumentendigitalisierung
Archiv-Scanning
PDF-zu-Text Konvertierung
Langzeit-Dokumentenspeicherung

Performance-Modi

Tiny: 64 Tokens @ 512×512
Small: 100 Tokens @ 640×640
Base: 256 Tokens @ 1024×1024
Large: 400 Tokens @ 1280×1280

Quellen: GitHub DeepSeek-OCR, MIT Technology Review

IBM - Granite 3.2 Vision

Eigenschaft	Details
Hersteller	IBM
Release	26. Februar 2025
Lizenz	Apache 2.0
Downloads	684K (Ollama)

Verfügbare Größen

Variante	Parameter	Download	RAM-Bedarf	Kontext
`granite3.2-vision:2b`	2B	~1.5 GB	~3 GB	128K

Stärken

Enterprise-fokussiert: Speziell für Geschäftsdokumente trainiert
Dokumentenverständnis: Tabellen, Charts, Flowcharts, Diagramme
OCR-Champion: Platz 2 auf OCRBench Leaderboard
Synthetische Daten: 85M PDFs, 26M synthetische QA-Paare

Ideale Anwendungsfälle

Enterprise-Dokumentenverarbeitung
Business Intelligence aus Dokumenten
Automatisierte Berichtsanalyse
Compliance-Dokumentenprüfung

Benchmarks

Vergleichbar mit Llama 3.2 11B und Pixtral 12B bei 1/5 der Größe
DocVQA, ChartQA, AI2D, OCRBench: Top-Performance

Quellen: IBM Newsroom, Hugging Face

OpenBMB - MiniCPM-V

Eigenschaft	Details
Hersteller	OpenBMB / Tsinghua University
Release	Kontinuierlich seit Februar 2024
Lizenz	Apache 2.0
Downloads	4.5M (Ollama)

Verfügbare Größen

Variante	Parameter	Download	RAM-Bedarf	Kontext
`minicpm-v`	8B	~5 GB	~8 GB	32K

Stärken

GPT-4o Level: Übertrifft GPT-4o-latest und Gemini-2.0 Pro
Video-Verständnis: Bis zu 96x Kompression für Video-Tokens
Hybrid Thinking: Umschaltbar zwischen schnellem und tiefem Denken
Handschrift-OCR: Exzellent bei handgeschriebenen Texten
Mobile-optimiert: 17 tok/s auf iPhone 16 Pro Max

Ideale Anwendungsfälle

Mobile KI-Anwendungen
Video-Analyse und Zusammenfassung
Handschrift-Digitalisierung
Real-time Multimodal-Streaming

Versionshistorie

Feb 2024: MiniCPM-V 1.0
Mai 2024: MiniCPM-Llama3-V 2.5 (GPT-4V Level, 30+ Sprachen)
Aug 2024: MiniCPM-V 2.6 (Echtzeit-Video auf iPad)
Jan 2025: MiniCPM-o 2.6 (Sprache + Vision)
2025: MiniCPM-V 4.5 (aktuell)

Quellen: GitHub MiniCPM-V

Meta - Llama 3.2 Vision

Eigenschaft	Details
Hersteller	Meta AI
Release	25. September 2024
Lizenz	Llama 3.2 Community License
Downloads	Millionen (verschiedene Plattformen)

Verfügbare Größen

Variante	Parameter	Download	RAM-Bedarf	Kontext
`llama3.2-vision:11b`	11B	~7 GB	~12 GB	128K
`llama3.2-vision:90b`	90B	~55 GB	~70 GB	128K

Stärken

High-Resolution: Bis zu 1120×1120 Pixel
Dokumente: Charts, Graphen, Handschrift-OCR
Visual Grounding: Objektlokalisierung per natürlicher Sprache
Multilingual: DE, FR, IT, PT, HI, ES, TH offiziell unterstützt

Ideale Anwendungsfälle

Dokumenten-Verständnis und Extraktion
Bildunterschriften-Generierung
Visuelle Assistenz
Datenextraktion aus Bildern

Training

6B Bild-Text-Paare
2.02M GPU-Stunden auf H100-80GB

Quellen: Meta AI Blog, Hugging Face

Microsoft - Phi-3 Vision

Eigenschaft	Details
Hersteller	Microsoft Research
Release	21. Mai 2024 (Phi-3), August 2024 (Phi-3.5)
Lizenz	MIT
Downloads	183K (llava-phi3 auf Ollama)

Verfügbare Größen

Variante	Parameter	Download	RAM-Bedarf	Kontext
`llava-phi3`	3.8B	~2.5 GB	~5 GB	4K
`phi3.5-vision`	4.2B	~2.8 GB	~5 GB	128K

Stärken

Kompakt & Leistungsstark: Übertrifft Claude-3 Haiku und Gemini 1.0 Pro V
Charts & Diagramme: Besonders stark bei nicht-natürlichen Bildern
Multi-Frame: Bildvergleich, Zusammenfassung, Video-Analyse
Synthetische Daten: Hochwertige, reasoning-dichte Trainingsdaten

Ideale Anwendungsfälle

Chart- und Diagramm-Analyse
Technische Dokumentation
Business-Präsentationen
Edge-Deployment

Benchmarks (Phi-3.5)

MMMU: 40.2 → 43.0
MMBench: 80.5 → 81.9
TextVQA: 70.9 → 72.0

Quellen: Microsoft Azure Blog, Hugging Face

LLaVA (Large Language and Vision Assistant)

Eigenschaft	Details
Hersteller	University of Wisconsin-Madison / Microsoft
Release	April 2023 (Original), kontinuierliche Updates
Lizenz	Apache 2.0
Downloads	Millionen (Pionier-Modell)

Verfügbare Varianten

Variante	Release	Basis	Besonderheit
LLaVA 1.0	Apr 2023	Vicuna 7B	Original
LLaVA 1.5	Okt 2023	Vicuna 13B	Verbesserte Performance
LLaVA-NeXT	Jan 2024	Verschiedene	4x mehr Pixel, 3 Aspect Ratios
LLaVA-OneVision	Aug 2024	0.5B/7B/72B	SOTA auf 47 Benchmarks
LLaVA-Mini	2025	Effizient	1 Token pro Bild, 77% weniger FLOPs

Stärken

Pionier: Erstes weit verbreitetes Vision-Language-Modell
Vielseitig: VQA, Captioning, kreative Textgenerierung
Gut dokumentiert: Umfangreiche Forschung und Community
Viele Varianten: Für jeden Anwendungsfall optimiert

Ideale Anwendungsfälle

Akademische Forschung
Prototyping von Vision-Anwendungen
Benchmark-Vergleiche
Finetuning für spezifische Domains

Quellen: LLaVA Website, GitHub

Empfehlungen nach Anwendungsfall

Für Mac Mini M4 (16 GB RAM)

Anwendungsfall	Empfohlenes Modell	Alternativ
Allgemeine Bildanalyse	`gemma3:4b` ✅	`ministral-3:3b`
OCR / Dokumenten-Scan	`qwen2.5vl:3b`	`deepseek-ocr:3b`
Mehrsprachig	`ministral-3:3b` ✅	`gemma3:4b`
Ultrakompakt / Edge	`moondream`	`gemma3:1b`
Enterprise-Dokumente	`granite3.2-vision:2b`	`qwen2.5vl:3b`
Video-Analyse	`minicpm-v`	`qwen3-vl:4b`
GUI-Automatisierung	`qwen3-vl:4b`	`ministral-3:8b`
Reasoning	`ministral-3:8b`	`qwen3-vl:8b`

Performance-Vergleich (geschätzt auf M4)

Modell	Tokens/Sek	First Token	RAM
`moondream`	~80-100	<1s	~3 GB
`gemma3:4b`	~50-60	~1s	~5 GB
`ministral-3:3b`	~50-60	~1s	~5 GB
`qwen2.5vl:3b`	~45-55	~1s	~4 GB
`minicpm-v`	~30-40	~2s	~8 GB

Installationsbefehle

# Aktuell installiert
ollama pull gemma3:4b
ollama pull ministral-3:3b

# Empfohlene Erweiterungen
ollama pull qwen2.5vl:3b      # OCR-Champion
ollama pull moondream          # Ultrakompakt
ollama pull granite3.2-vision:2b  # Enterprise

# Optional (mehr RAM benötigt)
ollama pull ministral-3:8b    # Besseres Reasoning
ollama pull minicpm-v         # Video-Analyse
ollama pull qwen3-vl:4b       # GUI-Automatisierung

17 KiB Raw Permalink Blame History Unescape Escape

Lokale LLM-Modelle für ManaCore

Aktuell Installierte Modelle

Modell-Übersicht nach Hersteller

Google - Gemma 3

Verfügbare Größen

Stärken

Ideale Anwendungsfälle

Benchmarks

Mistral AI - Ministral 3

Verfügbare Größen

Stärken

Ideale Anwendungsfälle

Performance

Alibaba - Qwen 2.5 VL

Verfügbare Größen

Stärken

Ideale Anwendungsfälle

Benchmarks

Alibaba - Qwen 3 VL

Verfügbare Größen

Stärken

Ideale Anwendungsfälle

Moondream

Verfügbare Größen

Stärken

Ideale Anwendungsfälle

Benchmarks (2025-04-14 Release)

DeepSeek - OCR

Verfügbare Größen

Stärken

Ideale Anwendungsfälle

Performance-Modi

IBM - Granite 3.2 Vision

Verfügbare Größen

Stärken

Ideale Anwendungsfälle

Benchmarks

OpenBMB - MiniCPM-V

Verfügbare Größen

Stärken

Ideale Anwendungsfälle

Versionshistorie

Meta - Llama 3.2 Vision

Verfügbare Größen

Stärken

Ideale Anwendungsfälle

Training

Microsoft - Phi-3 Vision

Verfügbare Größen

Stärken

Ideale Anwendungsfälle

Benchmarks (Phi-3.5)

LLaVA (Large Language and Vision Assistant)

Verfügbare Varianten

Stärken

Ideale Anwendungsfälle

Empfehlungen nach Anwendungsfall

Für Mac Mini M4 (16 GB RAM)

Performance-Vergleich (geschätzt auf M4)

Installationsbefehle

Quellen und Weiterführende Links

Offizielle Dokumentation

Hersteller-Seiten

Benchmarks und Vergleiche

17 KiB

Raw Permalink Blame History