TokenFloor.AI Startseite

★ EUROPAS VORSPRUNG

TokenFloor · Prompt-Cache-Rechner

Prompt-Caching senkt die Kosten bei wiederverwendetem Kontext. Diese Seite erklärt, wie es pro Anbieter funktioniert, und hilft beim Bestimmen, ab wann es sich für deine Last lohnt. Modell wählen, Cache-Größe setzen, und ablesen, wo sich die Linien schneiden.

Was ist Prompt-Caching?

Wenn derselbe Kontext in vielen Anfragen erscheint — ein langer System-Prompt, RAG-Snippets oder ein analysiertes Dokument — kann der Anbieter ihn serverseitig zwischenspeichern. Die erste Anfrage zahlt den vollen Preis, spätere Anfragen zahlen 10–50% des Eingabepreises für den gecachten Teil.

Wann es sich lohnt

  • Großer wiederverwendeter Kontext (System-Prompts ≥ 2K Tokens, oder RAG mit stabilem Korpus)
  • Hohe Wiederverwendungsrate — typischerweise ≥3 Anfragen innerhalb der Cache-TTL
  • Latenz-sensitive Pfade — Cache-Hits halbieren auch die Time-to-First-Token grob

Wann nicht

  • Einmalige Q&A (kein wiederverwendbarer Kontext)
  • Kleine System-Prompts (<500 Tokens — der Schreib-Aufschlag frisst die Ersparnis auf)
  • Geringes Volumen (<1 Anfrage alle 5 Minuten bei Anthropic; Cache läuft ab)

Anbieter-Übersicht

Anbieter Cache-Input-Preis Cache-TTL Aktivierung
Anthropic (Claude 4.x) 10% des Inputs 5 Minuten (24h Opt-in) Explizite cache_control-Markierungen in Messages
OpenAI (GPT-5.x, o-Serie) 50% des Inputs 5–60 Minuten (automatisch) Automatisch bei Prompts ≥ 1024 Tokens mit gemeinsamem Präfix
Google (Gemini 3.x) 25% des Inputs 1 Stunde Standard (konfigurierbar) Explizite Context-Caching-API; oder implizit bei Präfixen ≥ 4K Tokens
DeepSeek (V4) 2% des Inputs Stunden (LRU-Verdrängung) Automatisch bei Disk-Cache-Treffern, gemeldet in prompt_cache_hit_tokens
xAI (Grok 4.3) 16% des Inputs 5 Minuten Automatisch bei wiederholten Präfixen
Together / Kimi / Z.AI 10–17% des Inputs Variiert (anbieterspezifisch) Siehe Anbieter-Dokumentation — Abdeckung bei OSS-Hosting uneinheitlich

Rabatte zeigen den Cache-Input-Tarif als Anteil des Standard-Inputs. Output-Tokens werden immer zum Standard-Output-Tarif berechnet — Caching reduziert nur den Prompt-Teil. Quelle: veröffentlichte Anbieter-Preisseiten, wöchentlich vom TokenFloor-Refresh-Bot aktualisiert.

Break-Even berechnen