Das Schätz-Paradoxon

🃏 Der Konsens-Reflex: Warum Planning Poker nach dem Aufdecken kollabiert↑

Sprint-Planning, Dienstagnachmittag, FluxIon Grid Sachsenhausen, ein neunköpfiges Entwicklerteam. Chris, ein Junior in seinem zweiten Sprint, liest die Story: Abrechnungsabgleich: Die neue Mandantenstruktur in der Report-Verteilung berücksichtigen. Er weiß nicht, ob das eine Drei oder eine Acht ist. Er kennt das Modul nicht. Er war beim letzten Refactoring nicht dabei. Er ist unsicher, ob Mandantenstruktur hier dasselbe bedeutet wie im Authentifizierungs-Modul.

Das Planning-Poker-Tool zählt herunter. Chris schielt auf den linken Bildschirm zu Sarah, der Lead Architect. Sarah hat eine Fünf gewählt. Chris wählt eine Fünf. Anika, die Backend-Entwicklerin auf dem rechten Bildschirm, hat eine Acht gehoben. Sie sieht die acht Fünfen, murmelt halblaut „Okay, ich war vermutlich zu vorsichtig, machen wir eine Fünf daraus“ und ändert ihre Karte. Vierzig Sekunden. Story geschätzt. Nächstes Ticket.

In diesen vierzig Sekunden hat kein Schätzvorgang stattgefunden. Es fand ein Konformitätsritual statt, das aussieht wie eine Schätzung. Chris hat sich an der Senior-Kollegin orientiert. Anika hat ihre abweichende Zahl korrigiert, weil acht gleiche Karten soziales Gewicht tragen. Die Zahl, die am Ende im Tool landet, eine Fünf, wird in die Sprint-Velocity addiert, in den Quartals-Forecast hochgerechnet und auf der Roadmap aggregiert. Sie sieht aus wie ein Messwert.

Sie ist die Lautstärke der statusstärksten Stimme im Raum, gerundet auf die nächste Fibonacci-Zahl.

Ein Gruppenporträt von acht anthropomorphen Tierfiguren. Vier Figuren heben beim Agile Poker ihre Zahlenkarten. Drei zeigen eine '5', nur der Dachshund zeigt eine '8', was den Konformitätsdruck in der linearen Aufreihung veranschaulicht. Zwei Figuren auf der linken Seite beobachten die Szene nachdenklich. — Schätzkult oder Statistik? Konformitätsdruck und Anchoring können eure Planning-Poker-Zahlen verfälschen.

📐 Das relative Maß: Warum Story Points nix für die Geschäftsführung sind↑

Mike Cohn führte Story Points im Jahr 2005 als Maß für relative Komplexität ein. Keine Stunden. Keine Personentage. Eine ordinale Skala, die vergleichbare Stories in eine Rangfolge bringt. Die Logik dahinter war Notwehr. Wie Magne Jørgensen über zwei Jahrzehnte empirischer Forschung zur Software-Schätzung dokumentiert hat, sind Zeit- und Aufwandsschätzungen systematisch in Richtung Optimismus verzerrt. Ein ordinales Maß ohne Zeitanker sollte diese Verzerrung umgehen und dem Team dennoch eine Prognose ermöglichen.

Die Mathematik funktioniert unter spezifischen Bedingungen. Die Schätzungen müssen relativ sein, also an einer stabilen Referenz-Story verankert, die der Raum kennt. Und sie müssen unabhängig fallen. Neun Personen schauen sich die Story parallel an und wählen eine Zahl, unbeeinflusst voneinander.

Beide Bedingungen kollabieren in den meisten skalierten Konzern-Plannings. Die Referenz-Story rotiert oder wird gar nicht erst gepflegt. Die Unabhängigkeit stirbt in dem Moment, in dem die Karte der Senior-Architektin auf dem Bildschirm aufleuchtet.

Die Maßeinheit ist wertvoll. Die Bedingungen, unter denen diese Einheit eine valide Messung produziert, fehlen in der Praxis.

🧪 Das Asch-Erbe: Warum Gruppenschätzungen zu sozialen Reflexen verkommen↑

Solomon Asch veröffentlichte sein Linien-Experiment im Jahr 1955. Probanden saßen in Achtergruppen (sieben davon waren eingeweihte Verbündete des Versuchsleiters) und sollten angeben, welche von drei Linien in der Länge einer Referenzlinie entsprach. Die Aufgabe ist trivial. Isoliert durchgeführt liegt die Fehlerquote unter einem Prozent. Wenn die sieben Verbündeten einstimmig die falsche Linie nannten, gaben drei Viertel der echten Probanden mindestens einmal die falsche Antwort. Ein Drittel passte sich in der Mehrheit der Durchgänge an. Die korrekte Linie war visuell unbestreitbar. Die Probanden konnten die Aufgabe isoliert mühelos lösen. Sie knickten trotzdem ein.

Aschs Befund ist brutal in seiner Klarheit. Konformitätsdruck überschreibt die direkte Wahrnehmung, selbst wenn die richtige Antwort offen vor dir liegt und die Kosten für Widerspruch bei null liegen. Ein Student, den du nie wiedersehen wirst, widerspricht dir vielleicht bei der Länge einer Linie auf einer Karte. Die meisten Menschen passen sich an.

Story Points sind keine Linien. Sie sind eine ordinale Schätzung über eine inhärent unsichere Zukunft. Die korrekte Antwort lässt sich im Moment der Schätzung strukturell nicht unabhängig verifizieren. Die Konformitätsbedingungen im Sprint-Planning sind systematisch schlechter als in Aschs Labor. Die Gruppe ist nicht anonym. Die Teammitglieder kennen sich, und sie werden morgen zusammen programmieren. Die statusstärkste Stimme legt physisch eine Zahl auf den Tisch, verbunden mit ihrem Namen.

Hinzu kommt Zeitdruck. Das Planning muss in zwei Stunden beendet sein. Es gibt eine sichtbare Kostenfunktion für Widerspruch: Wer abweicht, muss die Abweichung vor versammelter Mannschaft rechtfertigen. Das kostet Diskussionszeit, die das gesamte Team bezahlt. Es gibt hingegen kaum eine Belohnung dafür, als einzige Person richtig zu schätzen, weil die Schätzung selten so gegen die Realität geprüft wird, dass sie auf die ursprüngliche Karte zurückfällt.

Die rationalste individuelle Strategie unter diesen Bedingungen ist Konformität.

Der Mechanismus, der sich darüber legt, ist Anchoring. Tversky und Kahneman haben den Ankereffekt 1974 formal dokumentiert; Jørgensen hat ihn in der Software-Schätzung repliziert. Schätzungen, die auf eine erste Zahl folgen, konvergieren auf diese Zahl. Die erste sichtbare Karte im Raum fungiert als Anker, an dem die folgenden Karten unbewusst kalibriert werden. Planning Poker mit gleichzeitigem Aufdecken versucht, genau das zu verhindern. In der Praxis schaut das Team nach dem Aufdecken auf die Senior-Person und passt sich im zweiten Durchgang an.

🪞 Die Maskerade der Stabilität: Wenn Velocity aufhört, ein echter Messwert zu sein↑

Eine ehrliche Schätzung über inhärent variable Arbeit zeigt von Sprint zu Sprint eine Streuung von plusminus dreißig bis vierzig Prozent. Die Arbeit ist variabel. Stories sind unterschiedlich groß. Menschen werden krank. Abhängigkeiten blockieren. Das System rauscht.

In vielen Konzern-Teams bewegt sich die Velocity über ein Dutzend Sprints hinweg in engen Bändern von plus/minus zehn Prozent. Das ist keine Auslieferungsstabilität. Das ist die Stabilität der Selbstbeschreibung. Das Team hat gelernt, dass die Velocity auf dem Vorstands-Slide des nächsten Monats auftaucht, und schätzt so, dass die Zahl halbwegs konstant bleibt.

Eine Story, die in die verbleibende Velocity des aktuellen Sprints passt, wird zu einer Fünf. Dieselbe Story würde in einem leeren Sprint eine Acht bekommen. Sobald der Messwert in den Steuerungszyklus eingeht, wird die Schätzung zu einer Funktion des Reportings.

Das zweite Symptom ist leiser und deutlich teurer. Chris hebt die Fünf, weil Sarah die Fünf gehoben hat. Niemand erfährt, dass Chris die Story nicht versteht. Diese Information, der präziseste Frühindikator für das Lieferrisiko der Story, fällt aus dem Prozess, bevor sie ausgesprochen wird.

Wenn die Story sechs Sprints später dreimal länger dauert, wird das in der Retrospektive als „technische Komplexität“ verbucht. Die wahre Ursache war ein Junior, der das Schätz-Ritual schweigend aussitzen musste, weil die sozialen Kosten zuzugeben, dass er die Mandantenstruktur nicht versteht, schwerer wogen als der Durchsatz-Schaden einer geratenen Zahl.

Beide Symptome haben dieselbe Wurzel. Die Schätzung ist ein soziales Artefakt. Das daraus abgeleitete Diagramm zeichnet dieses soziale Artefakt auf, nicht die eigentliche Arbeit.

🧮 Goodhart’s Law: Wie ein teaminternes Hilfsmittel zur toxischen Konzernwährung mutiert↑

Cohns Velocity war ein privater Dialekt, der den Menschen gehörte, die den Code schrieben. In dem Moment, in dem die Velocity über das Programm aggregiert, einem Lenkungsausschuss präsentiert und an Zielvereinbarungen geknüpft wird, greift Charles Goodharts Beobachtung aus dem Jahr 1975. Jede beobachtete statistische Regelmäßigkeit tendiert dazu zu kollabieren, sobald sie zu Steuerungszwecken unter Druck gesetzt wird.

Die Teams unter diesem Druck erfinden keine neuen Wege zu lügen. Sie greifen zu den wenigen Spielzügen, die die Maßeinheit erlaubt: Die Einheit wird nach oben bepreist, die Arbeit in mehr Tickets aufgeteilt, der Zeitverzug in die Inflation der nächsten Sprint-Schätzung absorbiert. Die Kurve steigt. Der ausgelieferte Wert bleibt flach.

Dieser Artikel verhandelt nicht den Mechanismus der Aggregation. Der Punkt hier liegt einen Schritt davor. Die Goodhart-Korruption beginnt im Moment der Schätzung, nicht erst bei der Aggregation. Wenn die Zahl im Vorstandszimmer ankommt, hat sie bereits zwei Filter durchlaufen: den Konformitätsdruck des Planning-Meetings und die leise Kalibrierung des Teams an den erwarteten Report. Die Aggregation legt einen dritten Filter darüber.

Das erklärt, warum das Coaching von Teams für „besseres Planning Poker“ ins Leere läuft. Die Einheit war im Raum ehrlich, bevor sie zur Konzernwährung wurde. Die Korruption steckt nicht in der Technik. Die Korruption liegt in der Grenze, die die Zahl auf ihrem Weg aus dem Team überschreitet.

🔧 Der Durchsatz-Pivot: Ersetze die Schätzung durch harte Ticket-Mathematik↑

Die strukturelle Alternative ist älter als die Dysfunktion, die sie heilt. Dan Vacanti hat sie 2015 ausformuliert: Hör auf, jede Story zu schätzen. Zähle, wie viele Tickets das Team pro Woche abschließt, und prognostiziere anhand dieser Verteilung.

Die Mechanik ist unromantisch. Das Team spielt kein Planning Poker mehr. Stories, die riesig aussehen, werden aufgeteilt, bis sie in etwa der Arbeit entsprechen, die das Team zuletzt abgeschlossen hat. Jedes Item, das in der Warteschlange des Teams landet, zählt als eins. Das Team protokolliert die Anzahl der pro Woche abgeschlossenen Items. Nach acht bis zwölf Wochen ist die Durchsatzverteilung dicht genug, um eine Monte-Carlo-Simulation zu füttern. Gegeben die empirische Variation dieses spezifischen Teams von Woche zu Woche: Wie hoch ist die Wahrscheinlichkeit, die nächsten siebzehn Items bis Woche vier abzuschließen? Bis Woche sechs?

Der Forecast entsteht als Wahrscheinlichkeitsband, nicht als Einzelzahl. Die Geschäftsführung sieht: „85 % Wahrscheinlichkeit für einen Abschluss bis Woche sechs, 50 % Wahrscheinlichkeit bis Woche vier.“ Das Team hat auf dem Weg dorthin kein einziges Ticket geschätzt. Die Zahl, die den Forecast treibt, wird im Nachhinein gemessen. Sie kann nicht durch Konformität verzerrt sein, weil sie eine Beobachtung ist, keine Verhandlung.

Was Agile Coaches tun können:

Ersetze den Planning-Poker-Schritt im nächsten Sprint durch ein dreißigminütiges Right-Sizing-Gespräch. Die Frage lautet nicht „Wie groß ist das?“, sondern „Ist das vergleichbar mit der Art von Arbeit, die wir in einer Woche abschließen können?“ Items, die durchfallen, werden geteilt. Items, die sich nicht teilen lassen, werden markiert und isoliert.
Miss den wöchentlichen Durchsatz anhand des existierenden Boards. Die Daten sind bereits im System.
Lass nach acht Wochen eine Monte-Carlo-Simulation über diese Daten laufen. Ersetze das nächste Quartals-Forecast-Slide durch das Wahrscheinlichkeitsband.
Hör auf, Story-Point-Velocity an Personen außerhalb des Teams zu reporten. Beobachte, wie sich das Schätzverhalten des Teams verändert, sobald das Publikum verschwindet.

Der Monte-Carlo-Schritt klingt technisch. Ein Spreadsheet, drei Spalten breit, lässt zehntausend Durchläufe in unter einer Sekunde laufen.

Die disziplinarische Hürde besteht darin, ob der Lenkungsausschuss ein Wahrscheinlichkeitsband lesen kann. Das ist ein Übersetzungsproblem, kein analytisches. „Siebzehn Items haben eine 85-prozentige Chance, bis Woche sechs fertig zu sein“ ist eine Aussage auf CFO-Niveau. Sie ist näher am Preis einer Option als an einer Budgetzeile.

Sie ist übrigens auch korrekt.

🛑 Der strukturelle Verstärker: Warum die Karte der Senior-Architektin nicht das Kernproblem ist↑

Die Erklärung über Verhaltensverzerrungen - Anchoring plus Konformität plus ein Junior, der einknickt - ist eine wahre Beschreibung des Symptoms. Sie ist keine vollständige Beschreibung der Ursache.

Die Ursache ist strukturell. In einer Standard-Planning-Poker-Runde wirken klar abgegrenzte Asymmetrien im Raum, noch bevor irgendjemand eine Karte hebt.

Macht-Asymmetrie: Die Karte der Senior-Architektin hat Gewicht, weil ihre Jahresbeurteilung näher am Ohr des Engineering Managers liegt als die des Juniors.

Informations-Asymmetrie: Die Senior-Person hat den Systemkontext, der dem Junior fehlt. Das Format trennt aber nicht zwischen „Ich habe Kontext“ und „Ich habe eine Zahl“. Beides landet zusammengepresst auf einer einzigen Fibonacci-Karte.

Karriere-Inzentivierungs-Asymmetrie: Die Kosten einer falschen Schätzung trägt die Person, die das Ticket ausliefert. Das ist selten die Person, die den Anker für die Schätzung gesetzt hat. Die Senior-Architektin zahlt keine Strafe für die Fünf. Der Junior zahlt den Preis dafür, so zu tun, als würde er sie verstehen.

Ein Coach, der die Senior-Entwickler bittet, ihre Karten als Letzte zu heben, um Anchoring zu vermeiden, behandelt das Symptom. Die Karte der Architektin ist laut, weil der Raum so struktureured ist, dass er sie verstärkt. Die lauteste Stimme zu bitten leiser zu sprechen, ändert die Akustik des Raumes nicht. Es sorgt dafür, dass die zweitlauteste Stimme den Effekt erbt.

Der Durchsatz-Pivot entschärft diese strukturellen Schichten auf einen Schlag, indem er den Moment entfernt, in dem eine Zahl unter sozialer Beobachtung produziert werden muss. Die Schätzung verschwindet. Der Forecast bleibt. Der Status der Senior-Kollegen wird nicht mehr in einer Zahl ausgedrückt, die das Team in Echtzeit ratifizieren muss.

⚖️ Die Randbedingung: Wo Story Points weiterhin ihre Existenzberechtigung haben↑

Das Plädoyer gegen Story Points ist nicht absolut. Sie funktionieren weiterhin als teaminternes Planungshilfsmittel, wenn drei sehr spezifische Bedingungen erfüllt sind. Das Team muss klein genug sein, damit die statusstärkste Stimme je nach Domäne wechselt. Die Referenz-Story wird aktiv gepflegt, nicht leise ausgetauscht. Und die resultierende Zahl verlässt den Raum nie: Sie wird nie aggregiert, summiert oder über die Abteilung hinweg verglichen. Unter diesen Parametern hält Cohns ursprüngliche Konstruktion. Die Maßeinheit bleibt aussagekräftig.

Das stärkste Gegenargument verdient dieselbe Ehrlichkeit. Auch Durchsatz-Messungen bringen ein Gaming-Muster mit sich. Wenn ein Team weiß, dass sein Forecast auf einer wöchentlichen Ticket-Anzahl beruht, kann es Tickets aggressiv zerschneiden, um die Daten aufzublähen, oder Scope in abgeschlossene Items absorbieren, um die Kurve ruhig zu halten.

Der strukturelle Schutzmechanismus hierbei ist identisch mit dem, der bei Story Points versagt: Halte die Metrik aus dem Belohnungssystem heraus. Nutze das Wahrscheinlichkeitsband, um zu prognostizieren, nicht um zu urteilen. In dem Moment, in dem ein Lenkungsausschuss einen Ziel-Durchsatz definiert und an einen Bonus knüpft, erfindest du einen neuen Dialekt der Metrik-Inflation.

Jede Schätztechnik degradiert, wenn sie als Waffe eingesetzt wird. Die Wahl besteht zwischen einer Metrik, die unter Druck sichtbar bricht, und einer, die unsichtbar bricht. Die Ticketzählung bricht sichtbar. Story-Point-Velocity bricht unsichtbar. Das ist der strukturelle Grund für den Wechsel.

🏁 Fazit: Hör auf, den Raum über die Zukunft abstimmen zu lassen↑

Planning Poker scheitert, weil es eine Abstimmung ist, und eine Abstimmung das falsche Instrument ist, um unsichere Arbeit zu messen. Abstimmungen finden einen Konsens. Schätzungen erfordern Informationen.

Ob dein Team klein ist oder dein Konzern skaliert arbeitet, die mechanische Lösung bleibt dieselbe. Zähle die abgeschlossenen Arbeitspakete. Prognostiziere anhand der Verteilung. Wenn eine Abteilung darauf besteht, ihre Fibonacci-Karten zu behalten, weil das Ritual psychologischen Trost spendet, lass sie. Aber akzeptiere, dass das resultierende Diagramm die soziale Hierarchie des Raumes misst, nicht die Komplexität der Arbeit. Lies es entsprechend. Klebe es nicht auf ein Vorstands-Slide.

Die Zahl an der Wand ist keine Messung der zukünftigen Auslieferung. Sie ist das aufgezeichnete Echo der statusstärksten Stimme, verkleidet in eine Fibonacci-Folge und versehen mit einem Konzernstempel.

⏱️ TL;DR: Die 40-Sekunden-Version↑

Planning Poker ist ein Konformitätsritual: Asch vermaß, was passiert, wenn Verbündete die falsche Linie benennen. Drei Viertel der Probanden knickten mindestens einmal ein. Die Konformitätsbedingungen im Sprint-Planning sind systematisch schlechter als in Aschs Labor.
Die Einheit war ehrlich, bevor sie die Teamgrenze passierte: Cohns Story Points waren ein privates, teaminternes Hilfsmittel. Sobald sie über Teams hinweg summiert und einem Lenkungsausschuss gemeldet werden, frisst Goodhart’s Law den Messwert auf.
Verdächtig stabile Velocity ist die diagnostische Signatur: Ein Team, das variable Arbeit ausliefert, aber über sechzehn Sprints hinweg Velocity in engen Bändern reportet, kalibriert sich an den Report, nicht an die Arbeit.
Die strukturelle Alternative ist Durchsatz-Messung: Hör auf, jedes Ticket zu schätzen. Zähle, was das Team pro Woche abschließt. Lass eine Monte-Carlo-Simulation über die Verteilung laufen. Der Forecast entsteht als Wahrscheinlichkeitsband, nicht als Einzelzahl.
Durchsatz-Messung bricht, wenn sie als Waffe eingesetzt wird: Schätztechniken degradieren, sobald sie an einen Bonus geknüpft sind. Der Schutz besteht darin, die Metrik aus dem Belohnungssystem herauszuhalten.
Die Karte der Senior-Architektin ist nicht das Problem: Macht-, Informations- und Karriere-Asymmetrien erzeugen die Konformität. Die lauteste Stimme zu bitten, leiser zu sprechen, ändert die Akustik des Raumes nicht.

🧾 Die Belege: Die psychologischen und mechanischen Fundamente↑

Konformität unter Gruppendruck: Asch, S. E. (1955). „Opinions and Social Pressure.“ Scientific American. DOI, PDF. Das Linien-Experiment ist der fundamentale Beweis, dass visuelle Wahrnehmung unter einstimmigem Gruppenwiderspruch einknickt.
Anchoring als messbare Verzerrung: Jørgensen, M. (2004). „A review of studies on expert estimation of software development effort.“ Journal of Systems and Software. DOI, PDF. Zwei Jahrzehnte empirischer Studien bestätigen, dass die erste sichtbare Zahl jede nachfolgende Schätzung verformt.
Der allgemeine Anker-Effekt: Tversky, A., & Kahneman, D. (1974). „Judgment under Uncertainty: Heuristics and Biases.“ Science. DOI. Der ursprüngliche Nachweis, dass willkürliche erste Zahlen die nachfolgenden Schätzungen über Domänengrenzen hinweg kontaminieren.
Die ursprüngliche Konstruktion von Velocity: Cohn, M. (2005). Agile Estimating and Planning (ISBN: 978-0131479418). Die explizite Definition von Story Points als relatives, ordinales, zeitentkoppeltes und rein teaminternes Maß.
Throughput-Based Forecasting (Monte Carlo): Vacanti, D. S. (2015). Actionable Agile Metrics for Predictability (ISBN: 978-0986436338). End-to-End-Durchsatz-Sampling mit vorgerechneten Monte-Carlo-Beispielen; die wichtigste Praktiker-Referenz, um Einzelschätzungen zu ersetzen.
Velocity als Steuerungsmetrik: Reinertsen, D. G. (2009). The Principles of Product Development Flow (ISBN: 978-1935401001). Die Standardreferenz dafür, warum Metriken, die in den Steuerungszyklus eingehen, aufhören das System zu messen und anfangen sich selbst zu messen.
Goodhart’s Law (The Metric Trap): Goodhart, C. A. E. (1975). „Problems of Monetary Management: The UK Experience.“ Monetary Theory and Practice (Macmillan, 1984, Kap. 4). Wenn ein Maß zu einem Ziel wird, hört es auf, ein gutes Maß zu sein. Kapitel hier lesen