Hardware-Dimensionierung für On- Premise KI: Der VRAM- Berechnungsleitfaden

Hardware-Dimensionierung für On- Premise KI: Der VRAM- Berechnungsleitfaden

Hardware-Dimensionierung für On- Premise KI: Der VRAM- Berechnungsleitfaden

Hardware-Dimensionierung für On- Premise KI: Der VRAM- Berechnungsleitfaden

14.10.2025

René Herzer, founder basebox

René Herzer

Die zentrale Frage bei der KI-Hardware-Beschaffung lautet: "Welche Hardware soll ich kaufen?" Die Antwort hängt maßgeblich von einem oft übersehenen Faktor ab: dem VRAM-Bedarf der GPU. Dieser Leitfaden erklärt, warum VRAM der entscheidende Dimensionierungsfaktor ist und wie er korrekt berechnet wird.


Warum VRAM die Hardware-Entscheidung bestimmt

Bei traditioneller Server-Hardware stehen CPU, RAM und Storage im Fokus. Bei KI-Systemen ist die GPU mit ihrem VRAM der limitierende Faktor. Anders als bei anderen Anwendungen muss das komplette KI-Modell vollständig in den GPU-Speicher geladen werden.

Die Hardware-Hierarchie bei KI:

  1. VRAM (kritisch): Bestimmt, welche Modelle überhaupt laufen

  2. GPU-Performance: Beeinflusst Antwortgeschwindigkeit

  3. CPU/RAM: Unterstützende Komponenten

  4. Storage: Für Dokumente und Betriebssystem



Praktische Konsequenz: Eine €30.000 H100 mit 80GB VRAM kann ein 70B-Modell ausführen, während eine €3.000 RTX 4090 mit 24GB VRAM bei demselben Modell versagt - unabhängig von der sonstigen Hardware-Ausstattung.

Concurrent User: Realistische Nutzungsplanung

Ein häufiger Planungsfehler ist die Gleichsetzung von Gesamtnutzern mit gleichzeitigen Nutzern (Concurrent Users). Die tatsächliche Gleichzeitigkeit ist deutlich geringer.

Concurrent User Faustregeln


Büroumgebung (Standard-Arbeitszeiten):
• 10 Gesamtnutzer → 2-3 concurrent users
• 50 Gesamtnutzer → 8-12 concurrent users
• 100 Gesamtnutzer → 15-25 concurrent users
• 500 Gesamtnutzer → 50-100 concurrent users

Intensivnutzung (Forschung, Analyse-Teams):
• 10 Gesamtnutzer → 4-6 concurrent users
• 50 Gesamtnutzer → 15-25 concurrent users
• 100 Gesamtnutzer → 30-50 concurrent users

Call Center / Support (kontinuierliche Nutzung):
• 10 Gesamtnutzer → 6-8 concurrent users
• 50 Gesamtnutzer → 30-40 concurrent users
• 100 Gesamtnutzer → 60-80 concurrent users

Nutzungsmuster analysieren


Typische Nutzungsverteilung über den Tag:
09:00-11:00: Peak-Zeit (80% der Tagesnutzung)
11:00-14:00: Moderate Nutzung (40% der Tagesnutzung)
14:00-17:00: Zweiter Peak (60% der Tagesnutzung)
Außerhalb: Minimale Nutzung (5-10%)

Größenanpassung für verschiedene Szenarien:
Konservativ: Größe für 80% der Spitzenlastnutzung
Ausgewogen: Größe für 60% der Spitzenlastnutzung mit Warteschlangen
Kostenoptimiert: Größe für 40% der Spitzenlastnutzung mit längeren Wartezeiten

VRAM-Berechnung: Die entscheidenden Faktoren

Die theoretischen Grundlagen sind wichtig, aber für präzise Berechnungen wird die Verwendung eines VRAM-Rechners empfohlen. Dieser berücksichtigt alle relevanten Parameter und deren Wechselwirkungen.

VRAM-Kalkulator nutzen →

Mit diesem Tool können verschiedene Konfigurationen durchgespielt und der exakte VRAM-Bedarf ermittelt werden. Die folgenden Abschnitte erklären die einzelnen Parameter des Kalkulators:

1. Modellgröße und Quantisierung


Modell-Parameter bestimmen den Grundbedarf:
• 3B Parameter: ~6 GB (FP16) oder ~3 GB (INT8)
• 7B Parameter: ~14 GB (FP16) oder ~7 GB (INT8)
• 13B Parameter: ~26 GB (FP16) oder ~13 GB (INT8)
• 70B Parameter: ~140 GB (FP16) oder ~70 GB (INT8)

Quantisierung reduziert VRAM-Verbrauch:
FP16: Volle Präzision, höchste Qualität, maximaler VRAM-Verbrauch
INT8: Halbierter VRAM-Verbrauch, 2-5% Qualitätsverlust
• INT4: Viertel VRAM-Verbrauch, 5-10% Qualitätsverlust

Produktive Systeme nutzen typischerweise INT8-Quantisierung für optimales Verhältnis von Qualität und Ressourcenverbrauch.

2. Context Window (Sequence Length)

Das Context Window definiert die maximale Anzahl von Tokens (Wörtern/Zeichen), die das Modell gleichzeitig verarbeiten kann.

Typische Context-Größen und Anwendungsfälle:
2K Tokens: ~1 Seite Text, einfache Fragen
8K Tokens: ~4 Seiten Text, mittlere Dokumente
32K Tokens: ~15 Seiten Text, ausführliche Analysen
128K Tokens: ~60 Seiten Text, sehr umfangreiche Dokumente

VRAM-Impact: Der VRAM-Verbrauch steigt exponentiell mit der Context-Größe durch den KV-Cache.


Beispiel DeepSeek-R1 3B:
• 2K Context: 8,02 GB VRAM
• 8K Context: ~12 GB VRAM
• 32K Context: ~20+ GB VRAM

3. Batch Size (Gleichzeitige Verarbeitung)

Die Batch Size entspricht der Anzahl concurrent users und bestimmt, wie viele Anfragen parallel verarbeitet werden können.

Batch Size-Auswirkungen:
Batch Size = 1: Ein Nutzer, minimale Latenz
Batch Size = 8: Acht parallele Anfragen, moderate Latenz
Batch Size = 32: Maximaler Durchsatz, höhere Latenz pro Anfrage

VRAM-Verbrauch steigt linear: Jede zusätzliche parallele Anfrage erhöht den VRAM-Bedarf für Aktivierungen.

Praktisches Beispiel (13B-Modell, 8K-Context):
• 1 concurrent user: 15 GB VRAM
• 4 concurrent users: 18 GB VRAM
• 8 concurrent users: 22 GB VRAM
• 16 concurrent users: 30 GB VRAM4.

  1. KV-Cache-Quantisierung

Der KV-Cache speichert bereits verarbeitete Tokens zur Performance-Optimierun.

KV-Cache-Optionen:
• FP16: Standard-Präzision, höchster VRAM-Verbrauch
• INT8: 50% VRAM-Reduktion, minimaler Qualitätsverlust
• INT4: 75% VRAM-Reduktion, merklicher Qualitätsverlust

Praktische Berechnungsbeispiele

Beispiel 1: Kleine Organisation (25 Gesamtbenutzer)


Nutzungsanalyse:
• 25 Gesamtbenutzer (Büroumgebung)
• 5--8 concurrent users (Peak-Zeit)
• Dokumente bis 5 Seiten (8K Context)
• Standard-Qualitätsanforderungen

VRAM-Konfiguration:
• Modell: 13B Parameter (INT8)
• Context: 8K Tokens
• Batch Size: 8 (für Peak-Nutzung)
VRAM-Bedarf: ~22 GB
GPU-Empfehlung: NVIDIA L4 (24 GB)

Beispiel 2: Mittlere Organisation (100 Gesamtbenutzer)


Nutzungsanalyse:

• 100 Gesamtbenutzer (gemischte Nutzung)
• 20-25 concurrent users (Peak-Zeit)
• Dokumente bis 15 Seiten (32K Kontext)
• Hohe Qualitätsanforderungen


VRAM-Konfiguration:
• Modell: 70B Parameter (INT8)
• Context: 32K Tokens
• Batch Size: 24 (für Peak-Nutzung)
• VRAM-Anforderung: ~45 GB
• GPU-Empfehlung: NVIDIA L40S (48 GB)

Beispiel 3: Große Organisation (500 Gesamtbenutzer)

Nutzungsanalyse:
• 500 Gesamtbenutzer (intensivnutzung)
• 80-100 concurrent users (Peak-Zeit)
• Sehr umfangreiche Dokumente (128K Kontext)
• Höchste Qualitätsanforderungen


VRAM-Konfiguration:
• Modell: 70B Parameter (FP16)
• Kontext: 128K Tokens
• Batch Size: 32 pro GPU
VRAM-Anforderung: ~75 GB pro GPU
• GPU-Empfehlung: 3× NVIDIA H100 (80 GB) im Cluster

Architektur-Flexibilität bei der Dimensionierung

Moderne KI-Plattformen ermöglichen flexible Verteilung der Komponenten:

Monolithische Architektur:
• LLM, RAG und Management auf einem Server
• Geringste Hardware-Anforderungen
• Limitierte Skalierbarkeit

Verteilte Architektur:
• LLM-Server: Dediziert für Textgenerierung
• RAG-Server:
Speziell für Dokumentenverarbeitung
• Management-Server:
Web-Interface und Orchestrierung

Hybride-Ansätze:
• RAG und Management auf einem Server
• LLM auf dediziertem Server
• Optimaler Kosten-Nutzen-Verhältnis

Die Architektur-Entscheidung beeinflusst die VRAM-Berechnung erheblich, da bei verteilten Systemen die Ressourcen spezifischer dimensioniert werden können.

Häufige Berechnungsfehler


Concurrent Users unterschätzen:
• Problem: Nur durchschnittliche Nutzung berücksichtigt
• Lösung: Peak-Zeiten analysieren und entsprechend dimensionieren

Context Window überschätzen:
• Problem: 128K Context geplant, nur 8K tatsächlich genutzt
• Lösung: Realistische Dokumentenlängen analysieren

Quantisierung nicht berücksichtigen:
• Problem: FP16-Kalkulation ohne Prüfung von INT8-Alternativen
• Lösung: Qualitätsanforderungen realistisch bewerten

Fehlender Sicherheitspuffer:
• Problem: Exakte Kalkulation ohne Reserven
• Lösung: 15-25% Puffer für unvorhergesehene Anforderungen

VRAM-Optimierungsstrategien


Quantisierungsoptimierung:
• Modell-Weights: INT8 für Produktivumgebungen
• KV-Cache: INT8 für VRAM-Effizienz
• Activations: FP16 für numerische Stabilität

Context-Management:
Sliding Window: Automatisches Entfernen alter Tokens
• Document Chunking: Aufteilung langer Dokumente
• Intelligent Caching: Vorberechnung häufiger Anfragen

Batch-Optimierung:
• Dynamic Batching: Anpassung der Batch Size je nach Last
• Sequence Packing: Zusammenfassung kurzer Anfragen

Validierung der Berechnung


Cloud-Testing vor Hardware-Beschaffung:
• Stundenweise Miete von GPU-Instanzen (€2-4/Stunde)
• Test mit realistischen Daten und Nutzungsmustern
• Messung von VRAM-Verbrauch und Performance-Metriken
• Validierung verschiedener Konfigurationen

Monitoring-Metriken:
• VRAM-Auslastung unter verschiedenen Lasten
• Antwortzeiten bei unterschiedlichen Batch Sizes
• Durchsatz bei verschiedenen Context-Größen
• Qualitätsbewertung bei verschiedenen Quantisierungsgradenn

Checkliste für Hardware-Dimensionierung


Nutzungsanalyse:
• Gesamtanzahl der Nutzer ermittelt
• Concurrent Users basierend auf Nutzungstyp berechnet
• Peak-Zeiten und Nutzungsmuster analysiert
• Wachstumsprojektionen für 12-24 Monate erstellt

Anforderungsanalyse:
• Typische und maximale Dokumentenlängen ermittelt
• Qualitätsanforderungen spezifiziert
• Performance-Anforderungen (Latenz vs. Durchsatz) geklärt
• Verfügbarkeitsanforderungen definiert

VRAM-Berechnung:
• Modellgröße basierend auf Qualitätsanforderungen gewählt
• Quantisierung für Produktivumgebung berücksichtigt (INT8)
• Context Window basierend auf realen Dokumenten dimensioniert
• Batch Size für Peak-Concurrent-Users kalkuliert
• Sicherheitspuffer von 15-25% eingeplantt

Validierung:
• Cloud-Test mit berechneter Konfiguration durchgeführt
• Performance unter realistischer Last gemessen
• VRAM-Verbrauch unter verschiedenen Szenarien dokumentiert
• Alternative Konfigurationen evaluiert

Dokumentation:
• VRAM-Anforderungen für Hardware-Spezifikation dokumentiert
• Architektur-Entscheidungen (monolithisch vs. verteilt) getroffen
• Skalierungsoptionen für zukünftige Erweiterungen geplant
• Begründung der Dimensionierung für Stakeholder vorbereitet

Fazit


Die Hardware-Dimensionierung für On-Premise KI beginnt mit der korrekten VRAM-Berechnung. Durch systematische Analyse der Nutzungsmuster, realistische Modellierung der Concurrent Users und gründliche Validierung durch Cloud-Tests lassen sich kostspielige Fehlentscheidungen vermeiden.

Die Investition von einigen hundert Euro in Cloud-Tests kann Fehlkäufe im fünfstelligen Bereich verhindern und stellt sicher, dass die beschaffte Hardware den tatsächlichen Anforderungen entspricht.

Link kopieren

Link kopieren

Link kopieren

Link kopieren

Bleiben Sie auf dem Laufendem

© 2025 basebox GmbH, Utting am Ammersee, Deutschland. Alle Rechte vorbehalten.

Made in Bavaria | EU-compliant

© 2025 basebox GmbH, Utting am Ammersee, Deutschland. Alle Rechte vorbehalten.

Made in Bavaria | EU-compliant

© 2025 basebox GmbH, Utting am Ammersee, Deutschland. Alle Rechte vorbehalten.

Made in Bavaria | EU-compliant

© 2025 basebox GmbH, Utting am Ammersee, Deutschland. Alle Rechte vorbehalten.

Made in Bavaria | EU-compliant