Zum Inhalt

AI Stack

Hardware

  • GPU: NVIDIA RTX 4000 Ada (20 GB VRAM)
  • Modelle: devstral-small-2:24b (15GB), qwen2.5-coder:14b, weitere

Komponenten

Ollama (LLM Runtime)

  • URL: http://ollama:11434 (intern)
  • GPU: Exklusiv, Container mit nvidia Runtime
  • Modelle: Automatisch geladen via Open WebUI

Open WebUI (Chat Interface)

  • URL: https://ai.xynap.tech (auth-geschuetzt)
  • Features: Multi-Model Chat, RAG, Prompt-Templates, API-Keys

Whisper (Speech-to-Text)

  • URL: http://whisper:9099 (intern)
  • Modell: whisper-large-v3-turbo
  • Endpoint: POST /asr?output=json

Piper TTS (Text-to-Speech)

Zwei Services:

Service Port Protokoll Verwendung
piper-tts 10200 Wyoming FreeSwitch
piper-http 5100 HTTP REST Web-Apps

Deutsche Stimme: thorsten_emotional (medium quality)

LibreTranslate

  • URL: http://libretranslate:5000 (intern)
  • Sprachen: DE, EN, FR, ES, IT, PT, ...
  • API: POST /translate {"q": "text", "source": "de", "target": "en"}

AI Agent (Genesis)

Der AI Coding Agent nutzt:

  • Ollama LLM fuer Code-Generierung
  • Redis PubSub fuer Task-Kommunikation
  • Platform API als Steuerungs-Interface
# Task erstellen
POST /api/v1/coder/tasks
{"prompt": "...", "workspace": "/path/to/code"}

# Status abrufen
GET /api/v1/coder/tasks/{token}

Echtzeit-Dolmetscher

AI-basierter Telefondolmetscher:

Anruf → FreeSwitch → Whisper (STT) → LibreTranslate → Piper (TTS) → zurueck

Unterstuetzt: DE↔EN, DE↔TR, DE↔AR und weitere Sprachpaare.