★ EUROPAS VORSPRUNG
TokenFloor · Prompt-Cache-Rechner
Prompt-Caching senkt die Kosten bei wiederverwendetem Kontext. Diese Seite erklärt, wie es pro Anbieter funktioniert, und hilft beim Bestimmen, ab wann es sich für deine Last lohnt. Modell wählen, Cache-Größe setzen, und ablesen, wo sich die Linien schneiden.
Was ist Prompt-Caching?
Wenn derselbe Kontext in vielen Anfragen erscheint — ein langer System-Prompt, RAG-Snippets oder ein analysiertes Dokument — kann der Anbieter ihn serverseitig zwischenspeichern. Die erste Anfrage zahlt den vollen Preis, spätere Anfragen zahlen 10–50% des Eingabepreises für den gecachten Teil.
Wann es sich lohnt
- Großer wiederverwendeter Kontext (System-Prompts ≥ 2K Tokens, oder RAG mit stabilem Korpus)
- Hohe Wiederverwendungsrate — typischerweise ≥3 Anfragen innerhalb der Cache-TTL
- Latenz-sensitive Pfade — Cache-Hits halbieren auch die Time-to-First-Token grob
Wann nicht
- Einmalige Q&A (kein wiederverwendbarer Kontext)
- Kleine System-Prompts (<500 Tokens — der Schreib-Aufschlag frisst die Ersparnis auf)
- Geringes Volumen (<1 Anfrage alle 5 Minuten bei Anthropic; Cache läuft ab)
Anbieter-Übersicht
| Anbieter | Cache-Input-Preis | Cache-TTL | Aktivierung |
|---|---|---|---|
| Anthropic (Claude 4.x) | 10% des Inputs | 5 Minuten (24h Opt-in) | Explizite cache_control-Markierungen in Messages |
| OpenAI (GPT-5.x, o-Serie) | 50% des Inputs | 5–60 Minuten (automatisch) | Automatisch bei Prompts ≥ 1024 Tokens mit gemeinsamem Präfix |
| Google (Gemini 3.x) | 25% des Inputs | 1 Stunde Standard (konfigurierbar) | Explizite Context-Caching-API; oder implizit bei Präfixen ≥ 4K Tokens |
| DeepSeek (V4) | 2% des Inputs | Stunden (LRU-Verdrängung) | Automatisch bei Disk-Cache-Treffern, gemeldet in prompt_cache_hit_tokens |
| xAI (Grok 4.3) | 16% des Inputs | 5 Minuten | Automatisch bei wiederholten Präfixen |
| Together / Kimi / Z.AI | 10–17% des Inputs | Variiert (anbieterspezifisch) | Siehe Anbieter-Dokumentation — Abdeckung bei OSS-Hosting uneinheitlich |
Rabatte zeigen den Cache-Input-Tarif als Anteil des Standard-Inputs. Output-Tokens werden immer zum Standard-Output-Tarif berechnet — Caching reduziert nur den Prompt-Teil. Quelle: veröffentlichte Anbieter-Preisseiten, wöchentlich vom TokenFloor-Refresh-Bot aktualisiert.
Break-Even berechnen