AI Stack¶
Hardware¶
- GPU: NVIDIA RTX 4000 Ada (20 GB VRAM)
- Modelle: devstral-small-2:24b (15GB), qwen2.5-coder:14b, weitere
Komponenten¶
Ollama (LLM Runtime)¶
- URL:
http://ollama:11434(intern) - GPU: Exklusiv, Container mit
nvidiaRuntime - Modelle: Automatisch geladen via Open WebUI
Open WebUI (Chat Interface)¶
- URL:
https://ai.xynap.tech(auth-geschuetzt) - Features: Multi-Model Chat, RAG, Prompt-Templates, API-Keys
Whisper (Speech-to-Text)¶
- URL:
http://whisper:9099(intern) - Modell: whisper-large-v3-turbo
- Endpoint:
POST /asr?output=json
Piper TTS (Text-to-Speech)¶
Zwei Services:
| Service | Port | Protokoll | Verwendung |
|---|---|---|---|
| piper-tts | 10200 | Wyoming | FreeSwitch |
| piper-http | 5100 | HTTP REST | Web-Apps |
Deutsche Stimme: thorsten_emotional (medium quality)
LibreTranslate¶
- URL:
http://libretranslate:5000(intern) - Sprachen: DE, EN, FR, ES, IT, PT, ...
- API:
POST /translate {"q": "text", "source": "de", "target": "en"}
AI Agent (Genesis)¶
Der AI Coding Agent nutzt:
- Ollama LLM fuer Code-Generierung
- Redis PubSub fuer Task-Kommunikation
- Platform API als Steuerungs-Interface
# Task erstellen
POST /api/v1/coder/tasks
{"prompt": "...", "workspace": "/path/to/code"}
# Status abrufen
GET /api/v1/coder/tasks/{token}
Echtzeit-Dolmetscher¶
AI-basierter Telefondolmetscher:
Unterstuetzt: DE↔EN, DE↔TR, DE↔AR und weitere Sprachpaare.