Amazon stampft KI-Bestenliste für Kiro-Team ein

Amazon hat sein internes Kiro-Leaderboard eingestellt, da die hohen Token-Kosten sämtliche Budgets sprengten. Das spielerische Messen der KI-Leistung wurde für das Unternehmen wirtschaftlich untragbar. Dieser Schritt verdeutlicht den wachsenden Druck auf Entwickler, ihre KI-Prozesse effizienter zu gestalten, da die Ausgaben für Rechenleistung zunehmend zur finanziellen Belastung werden.

Das Ende der KI-Rangliste

Amazon hat das interne Leaderboard für seine Kiro-Mitarbeiter offiziell gestoppt. Das Projekt diente dazu, die Leistung der KI-Modelle durch spielerische Wettbewerbe zu messen.

Die Verantwortlichen haben das Tool offiziell als “deprecated” markiert. Hinter den Kulissen flossen jedoch deutlich ernüchterndere Gründe in diese Entscheidung ein.

Teurer Spaß mit Tokens

Die Nutzung der KI-Modelle verursachte massiv höhere Kosten als ursprünglich geplant. Das Team verbrauchte beim Testen und Optimieren schlichtweg zu viele kostspielige Tokens.

Folgende Faktoren führten zum Aus:

Die Rechnungen für die Rechenleistung stiegen in astronomische Höhen.
Die Auswertung der Leaderboard-Daten war für das Budget nicht mehr tragbar.
Der direkte Nutzen der Rangliste rechtfertigte die hohen Ausgaben nicht.

Was bleibt von Kiro?

Das Kiro-Projekt bleibt weiterhin ein wichtiger Bestandteil der internen Software-Strategie von Amazon. Die Ingenieure suchen nun nach effizienteren Wegen, um die Modelle zu bewerten, ohne dabei das Budget zu sprengen.

Die Einstellung des Leaderboards zeigt ein bekanntes Problem der Branche:

KI-Entwicklung ist oft ein finanzielles Fass ohne Boden.
Interne Gamification-Ansätze verlieren schnell ihren Glanz, wenn die Betriebskosten die Obergrenze sprengen.
Die Effizienz bei der Token-Nutzung wird zum neuen Standard für Entwicklerteams.

Das Management bei Amazon bevorzugt nun eine striktere Kontrolle der Ressourcen. Ein einfaches “Deprecation”-Label beendet damit den Traum vom internen Highscore-Jagen in der KI-Abteilung.

Das Ende der KI-Rangliste

Amazon hat das interne Leaderboard für sein Kiro-Team offiziell gestoppt. Die Plattform diente dazu, die Leistung der KI-Modelle durch spielerische Wettbewerbe zu messen.

Das Projekt Kiro ist Teil der Amazon-Strategie für Generative AI, die unter der Leitung von Swami Sivasubramanian steht. Das Team konzentriert sich primär auf die interne Optimierung von Large Language Models (LLMs) für den E-Commerce-Bereich.

Teurer Spaß mit Tokens

Die Nutzung der KI-Modelle verursachte massiv höhere Kosten als ursprünglich budgetiert. Das Team verbrauchte beim Testen und Optimieren zu viele kostspielige Tokens.

Die finanzielle Belastung resultiert aus der Mietstruktur von Rechenkapazitäten innerhalb der AWS (Amazon Web Services)-Infrastruktur.

Jede Abfrage an ein Modell verbraucht Tokens, die bei internen Benchmarks in die Millionen gehen.
Die Abrechnung erfolgt nach dem Pay-as-you-go-Modell, das bei intensiven Testreihen schnell siebenstellige Beträge erreicht.
Eine manuelle oder automatisierte Rangliste provoziert ständige Modell-Abfragen, was die Kosten exponentiell in die Höhe treibt.

Historie und Kontext von Kiro

Das Kiro-Team ist eine relativ junge Einheit innerhalb der Amazon Research & Development Abteilung. Es wurde gegründet, um die Effizienz der Bedrock-Plattform zu steigern.

Vor Kiro fokussierte sich Amazon auf Alexa AI, das primär auf vortrainierten Modellen wie Alexa Teacher Models (ATM) basierte.

Der Wechsel zu Kiro signalisiert die Abkehr von spezialisierten Sprachassistenten hin zu breit einsetzbaren LLMs.
Amazon investierte bereits 4 Milliarden Dollar in Anthropic, um Zugriff auf Claude-Modelle zu erhalten und die eigene Abhängigkeit von OpenAI oder Google Gemini zu verringern.
Im Vergleich: Ein Durchlauf eines Evaluierungssatzes auf einem Claude 3.5 Sonnet Modell kostet bei hohem Volumen signifikant mehr als die älteren, kleineren Modelle von Amazon.

Branchenkontext und Effizienz

Die Einstellung des Leaderboards bei Amazon reiht sich in eine Serie von Maßnahmen ein, die große Tech-Konzerne derzeit ergreifen. Firmen wie Meta oder Microsoft kämpfen mit ähnlichen Problemen bei der Skalierung ihrer KI-Projekte.

Die Branche beobachtet derzeit eine Verschiebung bei der Priorisierung von Ressourcen.

Der Fokus liegt nicht mehr auf der reinen Modellgröße, sondern auf der Inferenz-Effizienz.
Unternehmen wie Mistral AI zeigen, dass kleinere, optimierte Modelle bei deutlich geringeren Token-Kosten ähnliche Ergebnisse liefern.
Amazon setzt verstärkt auf das Trainium- und Inferentia-Chip-Portfolio, um die Abhängigkeit von teuren Nvidia H100-Grafikprozessoren zu senken.

Was bleibt von Kiro?

Das Kiro-Projekt bleibt ein Bestandteil der internen Software-Strategie von Amazon. Die Ingenieure suchen nach Wegen, um Modelle zu bewerten, ohne das Budget zu sprengen.

Die Einstellung des Leaderboards verdeutlicht ein Problem bei der Entwicklung von Large Language Models.

KI-Projekte benötigen straffe Finanzkontrollen für jeden API-Aufruf.
Gamification-Elemente, die auf ständigen Modell-Abfragen basieren, stehen im direkten Widerspruch zu aktuellen Sparvorgaben.
Interne Entwicklerteams müssen zukünftig mit statischen Datensätzen statt mit Live-Abfragen arbeiten, um die Betriebskosten zu senken.

Das Management bevorzugt nun eine striktere Kontrolle der Ressourcen. Die Abkehr vom internen Highscore-Jagen korreliert mit den Quartalszahlen, die einen gesteigerten Fokus auf die Profitabilität der Cloud-Sparte ausweisen.