diff --git a/docs/PLAN_OPTION_C.md b/docs/PLAN_OPTION_C.md index 72f8f9254..a8471cdf1 100644 --- a/docs/PLAN_OPTION_C.md +++ b/docs/PLAN_OPTION_C.md @@ -91,9 +91,19 @@ WSL2 (Ubuntu 24.04, 24 GB RAM-Limit, 12 vCPU, vmIdleTimeout=-1) | glitchtip.mana.how | mana-gpu-server | http://localhost:8020 | | (interne) gpu-box-eigene VM/Loki | – | nur LAN, via Mini-Promtail blockiert | -### Bekannte Limits / Pre-Existing Issues nach Phase 2c +### Cross-LAN Routing zwischen Mini-Container und GPU-Box -1. **Mini-Container-Logs werden nicht zu GPU-Loki geshipped.** Mini-Promtail kann GPU-Box `192.168.178.11:3100` aus Colima-Container-Network nicht erreichen, obwohl der Mini-Host es kann (Colima-NAT-Routing-Quirk). Ports 3100/9090/9091 sind via Windows-Firewall + `netsh interface portproxy` von der LAN-IP erreichbar. Mini-Promtail war ohnehin schon vor der Migration aus, ist also keine Regression — aktuell sind nur GPU-Box-Logs in Loki. Als Workaround später möglich: Loki-HTTP-Push via Cloudflare-Tunnel. +Wiederkehrendes Pattern: **Mac-Mini-Docker-Container** (in der Colima-Linux-VM) können die **Windows-GPU-Box** zwar IP-technisch erreichen, aber Docker-Bridge + Colima-NAT routen nicht zur LAN-IP `192.168.178.11`. Workaround = Cloudflare-Tunnel als interne-IP-Bridge: + +| Was | Status | Workaround | +|---|---|---| +| `vm.mana.how` (VictoriaMetrics) | nicht mehr nötig | War kurzzeitig aktiv für Mini-side status-gen; Phase 2e zog status-gen zur GPU-Box → vm.mana.how raus | +| `photon.mana.how` (Geocoder, GPU-WSL2 :2322) | aktiv (config v26) | mana-geocoding's `PHOTON_SELF_API_URL` auf `https://photon.mana.how` — closed das `/health/photon-self`-Probe-Loch; geocoding-Provider-Tier `privacy:'local'` ist erstmals seit Phase 2c real funktional | +| `gpu-stt`/`gpu-llm`/`gpu-tts`/`gpu-img`/`gpu-video`/`gpu-ollama` | aktiv (vor Phase 2c) | Direktes scraping von VM aus deaktiviert; blackbox-exporter probt nur die `/health`-Endpoints öffentlich | + +### Restliche Pre-Existing Issues nach Phase 2c + +1. **Mini-Container-Logs werden nicht zu GPU-Loki geshipped.** Mini-Promtail kann GPU-Box `192.168.178.11:3100` aus Colima-Container-Network nicht erreichen, obwohl der Mini-Host es kann. Ports 3100/9090/9091 sind via Windows-Firewall + `netsh interface portproxy` von der LAN-IP erreichbar. Mini-Promtail war ohnehin schon vor der Migration aus, ist also keine Regression — aktuell sind nur GPU-Box-Logs in Loki. Workaround analog zu photon: Loki-HTTP-Push via Cloudflare-Tunnel-Hostname (`loki.mana.how`). 2. **gpu-* direct scrape jobs deaktiviert.** Aus Docker-Container in WSL2 ist `host.docker.internal:port` (= host-gateway 172.18.0.1) nicht in der Lage, Windows-Host-Services zu erreichen (die binden auf 127.0.0.1). Workaround: blackbox-exporter probt `gpu-stt.mana.how/health` etc. öffentlich → grobe Up/Down-Visibility ist erhalten, nur App-interne Metriken (Token-Counts etc.) fehlen. 3. **7 Pre-Existing-DOWN-Targets:** `mana-auth`, `mana-credits`, `mana-user`, `mana-subscriptions`, `mana-analytics`, `memoro-server`, `uload-server` geben non-2xx auf `/metrics` zurück (entweder kein Endpoint oder Auth-protected). Waren auf dem Mini schon DOWN, nicht durch Migration verursacht. 4. **2 Scrape-Jobs übersprungen:** `mana-mcp` und `mana-crawler` exposen keine Host-Ports (nur Container-internal), daher von der GPU-Box nicht erreichbar. Auskommentiert in prometheus.yml. diff --git a/infrastructure/README.md b/infrastructure/README.md index 8ebbd0e3f..f1ef7c71f 100644 --- a/infrastructure/README.md +++ b/infrastructure/README.md @@ -63,6 +63,23 @@ Ingress-Konfiguration via API + Cloudflare-Dashboard, NICHT in `grafana`, `git`, `stats`, `glitchtip`, `status` (alles `*.mana.how`, für die Phase-2-Container hier). +Aktive Public-Hostnames (Stand 2026-05-07, config v26): + +| Hostname | Service | Zweck | +|---|---|---| +| `gpu-stt.mana.how` | `:3020` | Whisper STT (Scheduled-Task) | +| `gpu-tts.mana.how` | `:3022` | Piper TTS | +| `gpu-llm.mana.how` | `:3025` | LLM Gateway | +| `gpu-img.mana.how` | `:3023` | FLUX image-gen | +| `gpu-video.mana.how` | `:3026` | Video-gen | +| `gpu-ollama.mana.how` | `:11434` | Ollama API | +| `grafana.mana.how` | `:8000` | Phase 2a | +| `git.mana.how` | `:3041` | Forgejo (Phase 2b) | +| `stats.mana.how` | `:8010` | Umami (Phase 2b) | +| `glitchtip.mana.how` | `:8020` | Glitchtip (Phase 2d) | +| `status.mana.how` | `:8090` | Status-Page (Phase 2e) | +| `photon.mana.how` | `:2322` | Photon Geocoder (cross-LAN-Workaround für mana-geocoding's Probe + privacy-local Provider) | + API-Update (idempotent): ```python