Es war einmal eine Wahrsagerin namens Sable, die jeden Herbst gefragt wurde, welche der Bauern eine gute Ernte einfahren würden und welche scheitern würden.

Zunächst tat Sable, was ihr natürlich erschien: Sie betrachtete jeden Bauern und fällte ein Urteil — Erfolg oder Misserfolg — gestützt auf nichts weiter als ihr Bauchgefühl. Sie hatte oft genug recht, um ihre Stellung zu behalten, doch sie fühlte sich unehrlich. Die Wirklichkeit, das wusste sie, war trüber als ihre Verkündungen es ahnen ließen.

Also änderte sie ihre Vorgehensweise. Anstatt Erfolg oder Misserfolg schlicht auszusprechen, begann sie, eine Wahrscheinlichkeit zu verkünden. „Bauer Aldous", sagte sie, „hat eine dreiundsiebzigprozentige Chance auf eine gute Ernte." Die Dorfbewohner waren zunächst verärgert. Sie wollten Gewissheit. Doch Sable blieb standhaft, denn die Zahl war wahrer.

Wie aber gelangte sie zu ihren Zahlen? Sie führte Buch. Für jeden Bauern, den sie je beobachtet hatte, notierte sie alles, was sich messen ließ: die bestellten Morgen Land, die Qualität des Saatguts, die Zahl der helfenden Hände, die Tiefe des Brunnens. Und sie notierte das Ergebnis: Erfolg oder Misserfolg — eine Eins oder eine Null.

Sie bemerkte, dass kein einzelner Faktor die ganze Geschichte erzählte. Morgen Land allein sagten nichts, wenn das Saatgut schlecht war. Gutes Saatgut bedeutete nichts ohne Hände, die die Ernte einbrachten. Also wies sie jedem Faktor ein Gewicht zu — eine Zahl, die widerspiegelte, wie viel er bedeutete — und sie fasste sie zu einem einzigen Wert zusammen.

Doch hier lag ihre entscheidende Einsicht: Ein roher Wert konnte alles sein — drei, vierzig, minus zwölf. Eine Wahrscheinlichkeit hingegen musste zwischen null und eins liegen. Also führte sie jeden rohen Wert durch ein besonderes gekrümmtes "Tor" — eines, das jede Zahl, wie extrem auch immer, in diesen engen Korridor zwängte. Ein sehr hoher Wert kam als 0,97 heraus. Ein sehr niedriger Wert kam als 0,03 heraus. Ein mittlerer Wert landete nahe 0,5. Das Tor ließ niemals Gewissheit passieren. Es blieb stets ein Hauch von Zweifel in beide Richtungen.

Im Laufe der Jahreszeiten verfeinerte Sable ihre Gewichte. Wenn ein Bauer, dem sie gute Chancen gegeben hatte, dennoch scheiterte, justierte sie die Gewichte nach — etwas weniger Vertrauen in die Ackerfläche, etwas mehr in die Saatgutqualität. Dies tat sie wieder und wieder, jeder Misserfolg und jeder Erfolg lehrte sie etwas, bis ihr Hauptbuch weise geworden war.

Mit der Zeit bemerkten die Dorfleute etwas Bemerkenswertes. Sable lag oft genug falsch, um bescheiden zu bleiben, aber oft genug richtig, um Vertrauen zu verdienen. Sie sagte nie gewiss. Sie sagte nie unmöglich. Sie sagte wahrscheinlich und unwahrscheinlich, und das Dorf lernte, entsprechend zu planen.

Als Sable starb, hinterließ sie nicht nur ihre Vorhersagen, sondern auch ihre Buchführung, ihre Gewichte und die Form ihres gekrümmten "Tores" — damit jeder ihre Arbeit fortsetzen konnte: Messwerte einspeisen und als Antwort keine falschen Gewissheiten erhalten, sondern ehrliche Wahrscheinlichkeiten.


Die einfache Erklärung

Logistische Regression ist ein statistisches Modell, das verwendet wird, um die Wahrscheinlichkeit vorherzusagen, dass etwas zu einer von zwei Kategorien gehört — ja oder nein, Erfolg oder Misserfolg, Spam oder kein Spam.

Man speist eine Reihe von Eingabevariablen (sogenannte Features) ein, von denen jede mit einem erlernten Gewicht multipliziert wird, das ihre Bedeutung widerspiegelt. Diese gewichteten Eingaben werden zu einem einzigen Wert zusammengefasst. Da dieser rohe Wert unbegrenzt ist, wird er durch die logistische Funktion (Sigmoidfunktion) geleitet — eine S-förmige Kurve, die jede reelle Zahl auf einen Wert strikt zwischen 0 und 1 zusammenpresst, der als Wahrscheinlichkeit interpretiert werden kann.

Die Gewichte werden aus Trainingsdaten erlernt, indem der Vorhersagefehler minimiert wird — ein Prozess, der Optimierung genannt wird. Das Modell justiert seine Gewichte iterativ, bis die ausgegebenen Wahrscheinlichkeiten so gut wie möglich zu den beobachteten Ergebnissen passen.

Die Ausgabe ist niemals ein hartes Urteil — sie ist eine Wahrscheinlichkeit. Anschließend wählt man einen Schwellenwert (üblicherweise 0,5), um diese Wahrscheinlichkeit in eine Entscheidung umzuwandeln. Trotz seines Namens ist die logistische Regression im Grunde eine Klassifizierungsmethode und keine Regressionsmethode im eigentlichen Sinne. Ihre Stärke liegt in ihrer Interpretierbarkeit: Jedes Gewicht zeigt unmittelbar, wie stark ein bestimmtes Merkmal das Ergebnis in Richtung einer der beiden Kategorien verschiebt.


Möchten Sie größere KI-Projekte machen als dieses einfache Beispiel hier? Dann kommen Sie doch in meinen Kurs Softwarearchitektur für KI-Systeme. Ich freue mich!