Das Ende der KI-Rangliste
Amazon hat das interne Leaderboard für sein Kiro-Team offiziell gestoppt. Die Plattform diente dazu, die Leistung der KI-Modelle durch spielerische Wettbewerbe zu messen.
Das Projekt Kiro ist Teil der Amazon-Strategie für Generative AI, die unter der Leitung von Swami Sivasubramanian steht. Das Team konzentriert sich primär auf die interne Optimierung von Large Language Models (LLMs) für den E-Commerce-Bereich.
Teurer Spaß mit Tokens
Die Nutzung der KI-Modelle verursachte massiv höhere Kosten als ursprünglich budgetiert. Das Team verbrauchte beim Testen und Optimieren zu viele kostspielige Tokens.
Die finanzielle Belastung resultiert aus der Mietstruktur von Rechenkapazitäten innerhalb der AWS (Amazon Web Services)-Infrastruktur.
- Jede Abfrage an ein Modell verbraucht Tokens, die bei internen Benchmarks in die Millionen gehen.
- Die Abrechnung erfolgt nach dem Pay-as-you-go-Modell, das bei intensiven Testreihen schnell siebenstellige Beträge erreicht.
- Eine manuelle oder automatisierte Rangliste provoziert ständige Modell-Abfragen, was die Kosten exponentiell in die Höhe treibt.
Historie und Kontext von Kiro
Das Kiro-Team ist eine relativ junge Einheit innerhalb der Amazon Research & Development Abteilung. Es wurde gegründet, um die Effizienz der Bedrock-Plattform zu steigern.
Vor Kiro fokussierte sich Amazon auf Alexa AI, das primär auf vortrainierten Modellen wie Alexa Teacher Models (ATM) basierte.
- Der Wechsel zu Kiro signalisiert die Abkehr von spezialisierten Sprachassistenten hin zu breit einsetzbaren LLMs.
- Amazon investierte bereits 4 Milliarden Dollar in Anthropic, um Zugriff auf Claude-Modelle zu erhalten und die eigene Abhängigkeit von OpenAI oder Google Gemini zu verringern.
- Im Vergleich: Ein Durchlauf eines Evaluierungssatzes auf einem Claude 3.5 Sonnet Modell kostet bei hohem Volumen signifikant mehr als die älteren, kleineren Modelle von Amazon.
Branchenkontext und Effizienz
Die Einstellung des Leaderboards bei Amazon reiht sich in eine Serie von Maßnahmen ein, die große Tech-Konzerne derzeit ergreifen. Firmen wie Meta oder Microsoft kämpfen mit ähnlichen Problemen bei der Skalierung ihrer KI-Projekte.
Die Branche beobachtet derzeit eine Verschiebung bei der Priorisierung von Ressourcen.
- Der Fokus liegt nicht mehr auf der reinen Modellgröße, sondern auf der Inferenz-Effizienz.
- Unternehmen wie Mistral AI zeigen, dass kleinere, optimierte Modelle bei deutlich geringeren Token-Kosten ähnliche Ergebnisse liefern.
- Amazon setzt verstärkt auf das Trainium- und Inferentia-Chip-Portfolio, um die Abhängigkeit von teuren Nvidia H100-Grafikprozessoren zu senken.
Was bleibt von Kiro?
Das Kiro-Projekt bleibt ein Bestandteil der internen Software-Strategie von Amazon. Die Ingenieure suchen nach Wegen, um Modelle zu bewerten, ohne das Budget zu sprengen.
Die Einstellung des Leaderboards verdeutlicht ein Problem bei der Entwicklung von Large Language Models.
- KI-Projekte benötigen straffe Finanzkontrollen für jeden API-Aufruf.
- Gamification-Elemente, die auf ständigen Modell-Abfragen basieren, stehen im direkten Widerspruch zu aktuellen Sparvorgaben.
- Interne Entwicklerteams müssen zukünftig mit statischen Datensätzen statt mit Live-Abfragen arbeiten, um die Betriebskosten zu senken.
Das Management bevorzugt nun eine striktere Kontrolle der Ressourcen. Die Abkehr vom internen Highscore-Jagen korreliert mit den Quartalszahlen, die einen gesteigerten Fokus auf die Profitabilität der Cloud-Sparte ausweisen.