★ EUROPAS VORSPRUNG

TokenFloor · Prompt-Cache-Rechner

Prompt-Caching senkt die Kosten bei wiederverwendetem Kontext. Diese Seite erklärt, wie es pro Anbieter funktioniert, und hilft beim Bestimmen, ab wann es sich für deine Last lohnt. Modell wählen, Cache-Größe setzen, und ablesen, wo sich die Linien schneiden.

Was ist Prompt-Caching?

Wenn derselbe Kontext in vielen Anfragen erscheint — ein langer System-Prompt, RAG-Snippets oder ein analysiertes Dokument — kann der Anbieter ihn serverseitig zwischenspeichern. Die erste Anfrage zahlt den vollen Preis, spätere Anfragen zahlen 10–50% des Eingabepreises für den gecachten Teil.

Wann es sich lohnt

Großer wiederverwendeter Kontext (System-Prompts ≥ 2K Tokens, oder RAG mit stabilem Korpus)
Hohe Wiederverwendungsrate — typischerweise ≥3 Anfragen innerhalb der Cache-TTL
Latenz-sensitive Pfade — Cache-Hits halbieren auch die Time-to-First-Token grob

Wann nicht

Einmalige Q&A (kein wiederverwendbarer Kontext)
Kleine System-Prompts (<500 Tokens — der Schreib-Aufschlag frisst die Ersparnis auf)
Geringes Volumen (<1 Anfrage alle 5 Minuten bei Anthropic; Cache läuft ab)

Anbieter-Übersicht

Anbieter	Cache-Input-Preis	Cache-TTL	Aktivierung
Anthropic (Claude 4.x)	10% des Inputs	5 Minuten (24h Opt-in)	Explizite `cache_control`-Markierungen in Messages
OpenAI (GPT-5.x, o-Serie)	50% des Inputs	5–60 Minuten (automatisch)	Automatisch bei Prompts ≥ 1024 Tokens mit gemeinsamem Präfix
Google (Gemini 3.x)	25% des Inputs	1 Stunde Standard (konfigurierbar)	Explizite Context-Caching-API; oder implizit bei Präfixen ≥ 4K Tokens
DeepSeek (V4)	2% des Inputs	Stunden (LRU-Verdrängung)	Automatisch bei Disk-Cache-Treffern, gemeldet in `prompt_cache_hit_tokens`
xAI (Grok 4.3)	16% des Inputs	5 Minuten	Automatisch bei wiederholten Präfixen
Together / Kimi / Z.AI	10–17% des Inputs	Variiert (anbieterspezifisch)	Siehe Anbieter-Dokumentation — Abdeckung bei OSS-Hosting uneinheitlich

Rabatte zeigen den Cache-Input-Tarif als Anteil des Standard-Inputs. Output-Tokens werden immer zum Standard-Output-Tarif berechnet — Caching reduziert nur den Prompt-Teil. Quelle: veröffentlichte Anbieter-Preisseiten, wöchentlich vom TokenFloor-Refresh-Bot aktualisiert.

Break-Even berechnen