Hardware-Dimensionierung für On- Premise KI: Der VRAM- Berechnungsleitfaden

Hardware-Dimensionierung für On- Premise KI: Der VRAM- Berechnungsleitfaden

Hardware-Dimensionierung für On- Premise KI: Der VRAM- Berechnungsleitfaden

Hardware-Dimensionierung für On- Premise KI: Der VRAM- Berechnungsleitfaden

14.10.2025

René Herzer, Gründer von basebox

René Herzer

Keep control

Die zentrale Frage bei der KI-Hardware-Beschaffung lautet: "Welche Hardware soll ich kaufen?" Die Antwort hängt maßgeblich von einem oft übersehenen Faktor ab: dem VRAM-Bedarf der GPU. Dieser Leitfaden erklärt, warum VRAM der entscheidende Dimensionierungsfaktor ist und wie er korrekt berechnet wird.


Warum VRAM die Hardware-Entscheidung bestimmt

Bei traditioneller Server-Hardware stehen CPU, RAM und Storage im Fokus. Bei KI-Systemen ist die GPU mit ihrem VRAM der limitierende Faktor. Anders als bei anderen Anwendungen muss das komplette KI-Modell vollständig in den GPU-Speicher geladen werden.

Die Hardware-Hierarchie bei KI:

  1. VRAM (kritisch): Bestimmt, welche Modelle überhaupt laufen

  2. GPU-Performance: Beeinflusst Antwortgeschwindigkeit

  3. CPU/RAM: Unterstützende Komponenten

  4. Storage: Für Dokumente und Betriebssystem



Praktische Konsequenz: Eine €30.000 H100 mit 80GB VRAM kann ein 70B-Modell ausführen, während eine €3.000 RTX 4090 mit 24GB VRAM bei demselben Modell versagt - unabhängig von der sonstigen Hardware-Ausstattung.

Concurrent User: Realistische Nutzungsplanung

Ein häufiger Planungsfehler ist die Gleichsetzung von Gesamtnutzern mit gleichzeitigen Nutzern (Concurrent Users). Die tatsächliche Gleichzeitigkeit ist deutlich geringer.

Concurrent User Faustregeln


Büroumgebung (Standard-Arbeitszeiten):
• 10 Gesamtnutzer → 2-3 concurrent users
• 50 Gesamtnutzer → 8-12 concurrent users
• 100 Gesamtnutzer → 15-25 concurrent users
• 500 Gesamtnutzer → 50-100 concurrent users

Intensivnutzung (Forschung, Analyse-Teams):
• 10 Gesamtnutzer → 4-6 concurrent users
• 50 Gesamtnutzer → 15-25 concurrent users
• 100 Gesamtnutzer → 30-50 concurrent users

Call Center / Support (kontinuierliche Nutzung):
• 10 Gesamtnutzer → 6-8 concurrent users
• 50 Gesamtnutzer → 30-40 concurrent users
• 100 Gesamtnutzer → 60-80 concurrent users

Nutzungsmuster analysieren


Typische Nutzungsverteilung über den Tag:
09:00-11:00: Peak-Zeit (80% der Tagesnutzung)
11:00-14:00: Moderate Nutzung (40% der Tagesnutzung)
14:00-17:00: Zweiter Peak (60% der Tagesnutzung)
Außerhalb: Minimale Nutzung (5-10%)

Größenanpassung für verschiedene Szenarien:
Konservativ: Größe für 80% der Spitzenlastnutzung
Ausgewogen: Größe für 60% der Spitzenlastnutzung mit Warteschlangen
Kostenoptimiert: Größe für 40% der Spitzenlastnutzung mit längeren Wartezeiten

VRAM-Berechnung: Die entscheidenden Faktoren

Die theoretischen Grundlagen sind wichtig, aber für präzise Berechnungen wird die Verwendung eines VRAM-Rechners empfohlen. Dieser berücksichtigt alle relevanten Parameter und deren Wechselwirkungen.

VRAM-Kalkulator nutzen →

Mit diesem Tool können verschiedene Konfigurationen durchgespielt und der exakte VRAM-Bedarf ermittelt werden. Die folgenden Abschnitte erklären die einzelnen Parameter des Kalkulators:

1. Modellgröße und Quantisierung


Modell-Parameter bestimmen den Grundbedarf:
• 3B Parameter: ~6 GB (FP16) oder ~3 GB (INT8)
• 7B Parameter: ~14 GB (FP16) oder ~7 GB (INT8)
• 13B Parameter: ~26 GB (FP16) oder ~13 GB (INT8)
• 70B Parameter: ~140 GB (FP16) oder ~70 GB (INT8)

Quantisierung reduziert VRAM-Verbrauch:
FP16: Volle Präzision, höchste Qualität, maximaler VRAM-Verbrauch
INT8: Halbierter VRAM-Verbrauch, 2-5% Qualitätsverlust
• INT4: Viertel VRAM-Verbrauch, 5-10% Qualitätsverlust

Produktive Systeme nutzen typischerweise INT8-Quantisierung für optimales Verhältnis von Qualität und Ressourcenverbrauch.

2. Context Window (Sequence Length)

Das Context Window definiert die maximale Anzahl von Tokens (Wörtern/Zeichen), die das Modell gleichzeitig verarbeiten kann.

Typische Context-Größen und Anwendungsfälle:
2K Tokens: ~1 Seite Text, einfache Fragen
8K Tokens: ~4 Seiten Text, mittlere Dokumente
32K Tokens: ~15 Seiten Text, ausführliche Analysen
128K Tokens: ~60 Seiten Text, sehr umfangreiche Dokumente

VRAM-Impact: Der VRAM-Verbrauch steigt exponentiell mit der Context-Größe durch den KV-Cache.


Beispiel DeepSeek-R1 3B:
• 2K Context: 8,02 GB VRAM
• 8K Context: ~12 GB VRAM
• 32K Context: ~20+ GB VRAM

3. Batch Size (Gleichzeitige Verarbeitung)

Die Batch Size entspricht der Anzahl concurrent users und bestimmt, wie viele Anfragen parallel verarbeitet werden können.

Batch Size-Auswirkungen:
Batch Size = 1: Ein Nutzer, minimale Latenz
Batch Size = 8: Acht parallele Anfragen, moderate Latenz
Batch Size = 32: Maximaler Durchsatz, höhere Latenz pro Anfrage

VRAM-Verbrauch steigt linear: Jede zusätzliche parallele Anfrage erhöht den VRAM-Bedarf für Aktivierungen.

Praktisches Beispiel (13B-Modell, 8K-Context):
• 1 concurrent user: 15 GB VRAM
• 4 concurrent users: 18 GB VRAM
• 8 concurrent users: 22 GB VRAM
• 16 concurrent users: 30 GB VRAM4.

  1. KV-Cache-Quantisierung

Der KV-Cache speichert bereits verarbeitete Tokens zur Performance-Optimierun.

KV-Cache-Optionen:
• FP16: Standard-Präzision, höchster VRAM-Verbrauch
• INT8: 50% VRAM-Reduktion, minimaler Qualitätsverlust
• INT4: 75% VRAM-Reduktion, merklicher Qualitätsverlust

Praktische Berechnungsbeispiele

Beispiel 1: Kleine Organisation (25 Gesamtbenutzer)


Nutzungsanalyse:
• 25 Gesamtbenutzer (Büroumgebung)
• 5--8 concurrent users (Peak-Zeit)
• Dokumente bis 5 Seiten (8K Context)
• Standard-Qualitätsanforderungen

VRAM-Konfiguration:
• Modell: 13B Parameter (INT8)
• Context: 8K Tokens
• Batch Size: 8 (für Peak-Nutzung)
VRAM-Bedarf: ~22 GB
GPU-Empfehlung: NVIDIA L4 (24 GB)

Beispiel 2: Mittlere Organisation (100 Gesamtbenutzer)


Nutzungsanalyse:

• 100 Gesamtbenutzer (gemischte Nutzung)
• 20-25 concurrent users (Peak-Zeit)
• Dokumente bis 15 Seiten (32K Kontext)
• Hohe Qualitätsanforderungen


VRAM-Konfiguration:
• Modell: 70B Parameter (INT8)
• Context: 32K Tokens
• Batch Size: 24 (für Peak-Nutzung)
• VRAM-Anforderung: ~45 GB
• GPU-Empfehlung: NVIDIA L40S (48 GB)

Beispiel 3: Große Organisation (500 Gesamtbenutzer)

Nutzungsanalyse:
• 500 Gesamtbenutzer (intensivnutzung)
• 80-100 concurrent users (Peak-Zeit)
• Sehr umfangreiche Dokumente (128K Kontext)
• Höchste Qualitätsanforderungen


VRAM-Konfiguration:
• Modell: 70B Parameter (FP16)
• Kontext: 128K Tokens
• Batch Size: 32 pro GPU
VRAM-Anforderung: ~75 GB pro GPU
• GPU-Empfehlung: 3× NVIDIA H100 (80 GB) im Cluster

Architektur-Flexibilität bei der Dimensionierung

Moderne KI-Plattformen ermöglichen flexible Verteilung der Komponenten:

Monolithische Architektur:
• LLM, RAG und Management auf einem Server
• Geringste Hardware-Anforderungen
• Limitierte Skalierbarkeit

Verteilte Architektur:
• LLM-Server: Dediziert für Textgenerierung
• RAG-Server:
Speziell für Dokumentenverarbeitung
• Management-Server:
Web-Interface und Orchestrierung

Hybride-Ansätze:
• RAG und Management auf einem Server
• LLM auf dediziertem Server
• Optimaler Kosten-Nutzen-Verhältnis

Die Architektur-Entscheidung beeinflusst die VRAM-Berechnung erheblich, da bei verteilten Systemen die Ressourcen spezifischer dimensioniert werden können.

Häufige Berechnungsfehler


Concurrent Users unterschätzen:
• Problem: Nur durchschnittliche Nutzung berücksichtigt
• Lösung: Peak-Zeiten analysieren und entsprechend dimensionieren

Context Window überschätzen:
• Problem: 128K Context geplant, nur 8K tatsächlich genutzt
• Lösung: Realistische Dokumentenlängen analysieren

Quantisierung nicht berücksichtigen:
• Problem: FP16-Kalkulation ohne Prüfung von INT8-Alternativen
• Lösung: Qualitätsanforderungen realistisch bewerten

Fehlender Sicherheitspuffer:
• Problem: Exakte Kalkulation ohne Reserven
• Lösung: 15-25% Puffer für unvorhergesehene Anforderungen

VRAM-Optimierungsstrategien


Quantisierungsoptimierung:
• Modell-Weights: INT8 für Produktivumgebungen
• KV-Cache: INT8 für VRAM-Effizienz
• Activations: FP16 für numerische Stabilität

Context-Management:
Sliding Window: Automatisches Entfernen alter Tokens
• Document Chunking: Aufteilung langer Dokumente
• Intelligent Caching: Vorberechnung häufiger Anfragen

Batch-Optimierung:
• Dynamic Batching: Anpassung der Batch Size je nach Last
• Sequence Packing: Zusammenfassung kurzer Anfragen

Validierung der Berechnung


Cloud-Testing vor Hardware-Beschaffung:
• Stundenweise Miete von GPU-Instanzen (€2-4/Stunde)
• Test mit realistischen Daten und Nutzungsmustern
• Messung von VRAM-Verbrauch und Performance-Metriken
• Validierung verschiedener Konfigurationen

Monitoring-Metriken:
• VRAM-Auslastung unter verschiedenen Lasten
• Antwortzeiten bei unterschiedlichen Batch Sizes
• Durchsatz bei verschiedenen Context-Größen
• Qualitätsbewertung bei verschiedenen Quantisierungsgradenn

Checkliste für Hardware-Dimensionierung


Nutzungsanalyse:
• Gesamtanzahl der Nutzer ermittelt
• Concurrent Users basierend auf Nutzungstyp berechnet
• Peak-Zeiten und Nutzungsmuster analysiert
• Wachstumsprojektionen für 12-24 Monate erstellt

Anforderungsanalyse:
• Typische und maximale Dokumentenlängen ermittelt
• Qualitätsanforderungen spezifiziert
• Performance-Anforderungen (Latenz vs. Durchsatz) geklärt
• Verfügbarkeitsanforderungen definiert

VRAM-Berechnung:
• Modellgröße basierend auf Qualitätsanforderungen gewählt
• Quantisierung für Produktivumgebung berücksichtigt (INT8)
• Context Window basierend auf realen Dokumenten dimensioniert
• Batch Size für Peak-Concurrent-Users kalkuliert
• Sicherheitspuffer von 15-25% eingeplantt

Validierung:
• Cloud-Test mit berechneter Konfiguration durchgeführt
• Performance unter realistischer Last gemessen
• VRAM-Verbrauch unter verschiedenen Szenarien dokumentiert
• Alternative Konfigurationen evaluiert

Dokumentation:
• VRAM-Anforderungen für Hardware-Spezifikation dokumentiert
• Architektur-Entscheidungen (monolithisch vs. verteilt) getroffen
• Skalierungsoptionen für zukünftige Erweiterungen geplant
• Begründung der Dimensionierung für Stakeholder vorbereitet

Fazit


Die Hardware-Dimensionierung für On-Premise KI beginnt mit der korrekten VRAM-Berechnung. Durch systematische Analyse der Nutzungsmuster, realistische Modellierung der Concurrent Users und gründliche Validierung durch Cloud-Tests lassen sich kostspielige Fehlentscheidungen vermeiden.

Die Investition von einigen hundert Euro in Cloud-Tests kann Fehlkäufe im fünfstelligen Bereich verhindern und stellt sicher, dass die beschaffte Hardware den tatsächlichen Anforderungen entspricht.

Link kopieren

Bleiben Sie auf dem Laufendem

© 2026 basebox GmbH, Utting am Ammersee, Deutschland. Alle Rechte vorbehalten.

Made in Bavaria | EU-compliant

© 2026 basebox GmbH, Utting am Ammersee, Deutschland. Alle Rechte vorbehalten.

Made in Bavaria | EU-compliant

© 2026 basebox GmbH, Utting am Ammersee, Deutschland. Alle Rechte vorbehalten.

Made in Bavaria | EU-compliant

© 2026 basebox GmbH, Utting am Ammersee, Deutschland. Alle Rechte vorbehalten.

Made in Bavaria | EU-compliant