“Mit vier Parametern kann ich einen Elefanten anpassen, und mit fünf bringe ich seinen Rüssel zum Wackeln.”
— John von Neumann
Stell dir vor, du misst im Labor vier Punkte und suchst die Gerade, die am besten durchpasst. Kein gerades Lineal trifft alle vier Punkte exakt, denn jede Messung hat ihren kleinen Fehler. Was heißt dann überhaupt beste Lösung? Genau diese Frage beantwortet die Ausgleichsrechnung.
Bis jetzt haben wir lineare Gleichungssysteme gelöst, bei denen es höchstens so viele Gleichungen wie Unbekannte gab. In realen Anwendungen ist es oft umgekehrt: Man hat viel mehr Gleichungen als Unbekannte. Jede Messung liefert eine Gleichung, aber gesucht sind nur wenige Modellparameter. Ein solches System heißt überbestimmt: mit (mehr Zeilen als Spalten).
Bei einem überbestimmten System gibt es in aller Regel kein , das alle Gleichungen gleichzeitig erfüllt. Der Grund ist anschaulich: Wir haben mehr Bedingungen als Stellschrauben, also lassen sich nicht alle Bedingungen exakt einhalten. Statt nach einer exakten Lösung zu suchen, fragen wir: Welches kommt allen Gleichungen so nahe wie möglich?
Um den Fehler messen zu können, setzen wir alles auf eine Seite. Wir definieren den Residuenvektor . Seine Einträge heißen Residuen (von lateinisch residuum, der Rest). Jedes ist der Rest, der in Gleichung übrig bleibt, also der Betrag, um den diese Gleichung verfehlt wird. Wäre exakt lösbar, so wäre . Bei einem überbestimmten System ist das fast nie der Fall, und unser Ziel wird, insgesamt so klein wie möglich zu machen.
Welches macht den Gesamtfehler am kleinsten? Dafür brauchen wir zuerst ein einziges Maß für die Größe des ganzen Residuenvektors , nicht für jedes einzeln. Wir nehmen die Länge von , also seine euklidische Norm (die gewöhnliche Pfeillänge im Raum). Diese Länge wollen wir minimieren.
Anschaulich: ist die Gesamtlänge des Fehlervektors. Sie wird genau dann klein, wenn alle einzelnen Reste klein sind. Schreibt man die Norm aus, ist sie die Wurzel aus der Summe der Fehlerquadrate. Daher der Name Methode der kleinsten Quadrate: Wir minimieren .
Jetzt das zentrale Resultat. Statt das Minimierungsproblem direkt anzugehen, gibt es ein erstaunlich einfaches lineares Gleichungssystem, dessen Lösung genau das gesuchte beste liefert. Es heißt die Normalgleichungen und entsteht, indem man von links mit (der Transponierten von ) multipliziert. Die Lösungen dieses Systems stimmen mit den Lösungen des Minimierungsproblems überein.
Warum funktioniert das? Die Projektion auf den Spaltenraum. Erinnere dich an die Spaltensicht: ist eine Linearkombination der Spalten von . Alles, was erreichen kann, liegt im Spaltenraum . Liegt nicht in diesem Raum (der überbestimmte Fall), so ist der nächstgelegene erreichbare Punkt der Schatten (die senkrechte Projektion) von auf den Spaltenraum. Der Residuenvektor steht dann senkrecht auf allem, was erzeugen kann. Genau diese Senkrecht-Bedingung schreibt sich als , und das ist umgestellt die Normalgleichung .
Warum quadrieren wir, statt einfach die Beträge zu summieren? Zwei Gründe. Erstens ist das Quadrat überall glatt und differenzierbar, der Betrag hat an der Null einen Knick; das macht das Minimieren rechnerisch sauber und führt direkt auf ein lineares System. Zweitens zählen große Abweichungen durch das Quadrat stärker, ein Ausreißer fällt also deutlich ins Gewicht. Deshalb "kleinste Quadrate" und nicht "kleinste Beträge".
Ist der Rang von voll, also , so hat das Minimierungsproblem eine eindeutige Lösung. Anschaulich heißt voller Rang: Die Spalten von sind linear unabhängig, die Projektion landet auf genau einem Punkt, und dazu gehört genau ein Koeffizientenvektor .
Jetzt rechnen wir es einmal komplett durch. Im Labor wurden vier Messpunkte aufgenommen: an den Stellen die Werte . Gesucht ist ein quadratisches Polynom , das die Summe der Fehlerquadrate in -Richtung minimiert. Wir suchen also die drei Koeffizienten , sodass die Kurve möglichst gut durch die vier Punkte läuft.
Der Fehler in -Richtung am Punkt ist , also der vertikale Abstand zwischen Kurve und Messpunkt. Minimiert wird die Summe dieser quadrierten Abstände.
Warum noch ein zweites Verfahren, wenn die Normalgleichungen doch schon funktionieren? Der Grund ist numerische Genauigkeit. Beim Aufstellen von werden Zahlen quadriert und aufsummiert. Das verschlechtert die Kondition der Matrix: Kleine Rundungsfehler in den Daten werden in der Lösung stark verstärkt. Für präzise Anwendungen (etwa am Computer mit endlicher Rechengenauigkeit) sind die Normalgleichungen deshalb oft zu ungenau. Die QR-Zerlegung umgeht komplett und ist numerisch stabil.
Die Idee steckt im folgenden Satz: Jede Matrix lässt sich als Produkt schreiben. Dabei ist eine orthogonale Matrix und eine Matrix in Treppenform, oben eine quadratische obere Dreiecksmatrix , darunter nur Nullen. Genauer: Zu mit existiert eine orthogonale Matrix , sodass gilt.
Was heißt orthogonal, und warum hilft das? Eine quadratische Matrix heißt orthogonal, wenn ihre Spalten paarweise senkrecht und auf Länge normiert sind. Die entscheidende Eigenschaft: Bei einer orthogonalen Matrix ist die Inverse gleich der Transponierten, . Außerdem ist eine orthogonale Abbildung längentreu: Multiplizieren mit (oder ) ändert die Länge eines Vektors nicht, . Genau deshalb dürfen wir das Problem mit drehen, ohne den Fehler zu verfälschen. Als orthogonales nutzt man in der Praxis oft Givens-Rotationsmatrizen (Drehmatrizen), weil sie numerisch besonders stabil sind. Ist , so ist regulär (invertierbar).
Wann brauche ich das? Immer dann, wenn es auf Genauigkeit ankommt, also bei großen oder schlecht konditionierten Problemen und bei jeder seriösen numerischen Software. Für eine schnelle Handrechnung mit kleinen Zahlen tun es die Normalgleichungen auch; die QR-Zerlegung ist die robuste Variante.
Das eigentliche Verfahren ist ein festes Kochrezept aus vier Schritten. Es löst die Fehlergleichungen direkt, ohne je zu bilden.
Jetzt das Kochrezept an einem konkreten Fall. Gegeben sind die drei Fehlergleichungen , , . Gesucht ist die Lösung des Ausgleichsproblems mit der QR-Zerlegung. Das Lehrreiche an diesem Beispiel: Die Rotationsmatrix ist noch nicht fertig gegeben, wir müssen ihren Drehwinkel selbst bestimmen.
Zuerst bringen wir das Problem in die Form , lesen also und aus den Gleichungen ab. Danach folgen die vier Schritte des Kochrezepts.
Ist die Rotationsmatrix bereits gegeben, wird es noch kürzer. Dann entfällt das Bestimmen des Winkels, und man rechnet und direkt aus. Der folgende Fall zeigt das.
Aufgaben zu diesem Kapitel folgen.
Die Aufgaben für dieses Kapitel werden in einer zukünftigen Version ergänzt.