6.1Definitionen

6.1.1 Eigenwerte und Eigenvektoren

Stell dir eine Matrix AA als eine Maschine vor, die jeden Pfeil im Raum nimmt und ihn verschiebt: meistens wird der Pfeil dabei gedreht und gestreckt zugleich. Schickst du einen beliebigen Pfeil hinein, zeigt das Ergebnis AxA\mathbf{x} in eine ganz neue Richtung. Aber es gibt ein paar ausgezeichnete Pfeile, die ihre Richtung behalten: Die Maschine macht sie nur länger oder kürzer (oder spiegelt sie), dreht sie aber nicht aus ihrer Linie heraus. Genau diese besonderen Pfeile heissen Eigenvektoren, und der Streckfaktor heisst Eigenwert.

Mathematisch heisst das: Wir suchen alle Paare aus einer Zahl λ\lambda und einem Vektor x0\mathbf{x} \neq \mathbf{0}, für die AxA\mathbf{x} dasselbe ist wie der ursprüngliche Vektor mal λ\lambda. Der Eigenvektor wird also nur skaliert. Die Zahl λ\lambda (sprich „Lambda") heisst der zugehörige Eigenwert. Er darf Null sein, negativ sein oder sogar komplex; nur der Eigenvektor darf nicht der Nullvektor sein, denn A0=λ0A\cdot\mathbf{0} = \lambda\cdot\mathbf{0} gilt für jedes λ\lambda und wäre nutzlos.

Wann brauche ich das? Sobald man AA oft hintereinander anwendet (Übergänge eines Systems über viele Schritte, AkA^k), oder eine Schwingung, eine Drehung, eine quadratische Form oder eine Stabilität verstehen will, sucht man zuerst die Eigenrichtungen. In ihnen wird die Matrix zu einer simplen Multiplikation mit einer Zahl, und alles Komplizierte zerfällt in lauter eindimensionale Probleme. Das ist der rote Faden dieses ganzen Kapitels.

!!!
Eigenwert und Eigenvektor (Definition)
Ax=λx,x0A\mathbf{x} = \lambda\mathbf{x}, \qquad \mathbf{x} \neq \mathbf{0}
λ ∈ ℂ heisst Eigenwert, der Vektor x ≠ 0 heisst Eigenvektor von A.

Wie findet man die Eigenwerte? Schreibe Ax=λxA\mathbf{x} = \lambda\mathbf{x} um zu Axλx=0A\mathbf{x} - \lambda\mathbf{x} = \mathbf{0}, also (AλI)x=0(A - \lambda I)\mathbf{x} = \mathbf{0}. Dabei ist II die Einheitsmatrix, die nötig ist, damit man von der Matrix AA die Zahl λ\lambda überhaupt abziehen darf (man zieht λ\lambda entlang der Diagonalen ab). Das ist ein homogenes lineares Gleichungssystem. Es hat den Nullvektor immer als triviale Lösung. Eine nichttriviale Lösung x0\mathbf{x} \neq \mathbf{0} existiert genau dann, wenn die Matrix AλIA - \lambda I singulär ist, also ihre Determinante verschwindet.

Damit wird die Suche nach Eigenwerten zu einer Determinantengleichung: det(AλI)=0\det(A - \lambda I) = 0. Diese Gleichung verbindet das Eigenwertproblem direkt mit der Determinante aus Kapitel 3. Sie heisst charakteristische Gleichung.

!!!
Charakteristische Gleichung
det(AλI)=0\det(A - \lambda I) = 0
Nur für solche λ ist (AλI)x=0(A - \lambda I)\mathbf{x} = \mathbf{0} nichttrivial lösbar, also nur diese λ sind Eigenwerte.
!!
Charakteristisches Polynom
PA(λ)=det(AλI)P_A(\lambda) = \det(A - \lambda I)
Polynom vom Grad n in λ. Seine Nullstellen sind genau die Eigenwerte von A.

Wertet man det(AλI)\det(A - \lambda I) aus, erhält man ein Polynom in der Variablen λ\lambda. Für eine n×nn \times n-Matrix hat es Grad nn. Man nennt es das charakteristische Polynom PA(λ)P_A(\lambda). Anschaulich ist es eine einzige Funktion, in der die ganze Eigenwert-Information von AA steckt: Ihre Nullstellen sind die Eigenwerte. Aus dem Fundamentalsatz der Algebra folgt sofort: Über den komplexen Zahlen C\mathbb{C} hat ein n×nn \times n-System mindestens einen und höchstens nn verschiedene Eigenwerte.

Hat man einen Eigenwert λ\lambda gefunden, setzt man ihn in (AλI)x=0(A - \lambda I)\mathbf{x} = \mathbf{0} ein und löst dieses homogene System (mit Gauss). Die nichttrivialen Lösungen sind die Eigenvektoren zu λ\lambda. Sie bilden zusammen mit dem Nullvektor einen Unterraum, den Eigenraum EλE_\lambda. Den Eigenraum erhält man also als Kern von AλIA - \lambda I; seine Dimension ist die Anzahl freier Parameter, die beim Lösen übrig bleiben.

Eigenraum
Eλ={x  :  (AλI)x=0}=ker(AλI)E_\lambda = \{\, \mathbf{x} \;:\; (A - \lambda I)\mathbf{x} = \mathbf{0} \,\} = \ker(A - \lambda I)
Alle Eigenvektoren zu λ, plus der Nullvektor. Ein Unterraum von ℝⁿ (bzw. ℂⁿ).

Jetzt kommt ein feiner, aber prüfungsrelevanter Punkt: Vielfachheit. Ein Eigenwert kann auf zwei verschiedene Weisen „mehrfach" sein. Die algebraische Vielfachheit zählt, wie oft λ\lambda als Nullstelle im charakteristischen Polynom auftritt (steht (λ3)2(\lambda - 3)^2 als Faktor da, hat λ=3\lambda = 3 algebraische Vielfachheit 2). Die geometrische Vielfachheit zählt, wie viele linear unabhängige Eigenvektoren es zu λ\lambda gibt, also dimEλ\dim E_\lambda, die Zahl der freien Parameter beim Lösen.

Diese beiden Zahlen sind nicht immer gleich, aber es gibt eine feste Ordnung zwischen ihnen: Jeder Eigenwert hat mindestens einen Eigenvektor (geometrisch 1\geq 1), und die geometrische Vielfachheit kann nie grösser sein als die algebraische. Beide bleiben durch nn begrenzt. Die Summe aller algebraischen Vielfachheiten ist über C\mathbb{C} genau nn.

!!
Schranken für die Vielfachheiten
1    dimEλgeometrisch    alg. Vielfachheit von λim Polynom    n\begin{aligned} 1 \;&\le\; \underbrace{\dim E_\lambda}_{\text{geometrisch}} \\ \;&\le\; \underbrace{\text{alg. Vielfachheit von } \lambda}_{\text{im Polynom}} \;\le\; n \end{aligned}
Geometrisch = Anzahl freier Parameter; algebraisch = Nullstellenordnung im charakteristischen Polynom.

Drei weitere Eigenschaften sparen in Prüfungen enorm viel Rechnung, weil sie Eigenwerte ablesbar machen, ohne überhaupt ein Polynom faktorisieren zu müssen:

Situation Aussage Wozu nützlich
AA ist Dreiecksmatrix Eigenwerte = Diagonaleinträge EW ohne Polynom direkt ablesbar
λ\lambda ist EW von AA λ1\lambda^{-1} ist EW von A1A^{-1} Eigenwerte der Inversen sofort
AA diagonalisierbar det(A)=λ1λn\det(A) = \lambda_1 \cdots \lambda_n und spur(A)=λ1++λn\operatorname{spur}(A) = \lambda_1 + \cdots + \lambda_n Determinante und Spur als Produkt bzw. Summe der EW
Nützliche Eigenschaften der Eigenwerte (sparen Rechenarbeit)
!!
Determinante als Produkt der Eigenwerte
det(A)=λ1λ2λn\det(A) = \lambda_1 \cdot \lambda_2 \cdots \lambda_n
Mit Vielfachheit gezählt. Folge: A ist genau dann invertierbar, wenn kein Eigenwert 0 ist.

Ein letzter Baustein für später: Eigenvektoren zu verschiedenen Eigenwerten sind automatisch linear unabhängig. Hat eine n×nn \times n-Matrix also nn verschiedene Eigenwerte, so liefert sie sofort nn linear unabhängige Eigenvektoren, eine ganze Basis aus Eigenrichtungen. Genau das brauchen wir gleich für die Diagonalisierung.

Einstiegsbeispiel: Diagonalmatrix A=diag(1,2)A = \operatorname{diag}(1,2)

  1. Schritt 1: charakteristisches Polynom aufstellen
    Wir suchen die Eigenwerte, also die Nullstellen von det(AλI)\det(A - \lambda I).
    Für A=(1002)A = \begin{pmatrix} 1 & 0 \\ 0 & 2 \end{pmatrix} ist AλIA - \lambda I wieder diagonal:
    PA(λ)=det ⁣(1λ002λ)=(1λ)(2λ)P_A(\lambda) = \det\!\begin{pmatrix} 1-\lambda & 0 \\ 0 & 2-\lambda \end{pmatrix} = (1-\lambda)(2-\lambda)
  2. Schritt 2: Eigenwerte ablesen
    Das Produkt ist genau dann Null, wenn ein Faktor Null ist.
    Es gibt zwei einfache Eigenwerte (algebraische Vielfachheit je 1):
    λ1=1,λ2=2\lambda_1 = 1, \qquad \lambda_2 = 2
  3. Schritt 3: Eigenraum zu λ₁ = 1
    Einsetzen von λ1=1\lambda_1 = 1 in (AλI)x=0(A - \lambda I)\mathbf{x} = \mathbf{0} und Gauss lösen.
    Das System lässt x1x_1 frei und erzwingt x2=0x_2 = 0:
    E1=span{(10)}E_1 = \operatorname{span}\left\{ \begin{pmatrix} 1 \\ 0 \end{pmatrix} \right\}
  4. Schritt 4: Eigenraum zu λ₂ = 2
    Dasselbe mit λ2=2\lambda_2 = 2.
    Jetzt ist x2x_2 frei und x1=0x_1 = 0. Beide Eigenräume sind eindimensional (geometrische Vielfachheit 1):
    E2=span{(01)}E_2 = \operatorname{span}\left\{ \begin{pmatrix} 0 \\ 1 \end{pmatrix} \right\}

Beispiel: Dreiecksmatrix, Eigenwerte direkt von der Diagonalen

  1. Schritt 1: Matrix erkennen
    Bei einer Dreiecksmatrix steht die Eigenwert-Information schon auf der Diagonalen, das spart das Faktorisieren.
    Gegeben ist die untere Dreiecksmatrix
    A=(600120073)A = \begin{pmatrix} -6 & 0 & 0 \\ 1 & 2 & 0 \\ 0 & 7 & -3 \end{pmatrix}
  2. Schritt 2: charakteristisches Polynom
    Die Determinante einer Dreiecksmatrix ist das Produkt der Diagonalelemente, also auch hier bei AλIA - \lambda I.
    Es ergibt sich ein bereits faktorisiertes Polynom:
    PA(λ)=(λ+6)(2λ)(3+λ)=0P_A(\lambda) = (\lambda + 6)(2 - \lambda)(3 + \lambda) = 0
  3. Schritt 3: Eigenwerte ablesen
    Jeder Faktor liefert eine Nullstelle.
    Drei einfache Eigenwerte (algebraische Vielfachheit je 1):
    λ1=6,λ2=2,λ3=3\lambda_1 = -6, \qquad \lambda_2 = 2, \qquad \lambda_3 = -3
  4. Schritt 4: Eigenräume berechnen
    Für jeden Eigenwert (AλI)x=0(A - \lambda I)\mathbf{x} = \mathbf{0} mit Gauss lösen. Jedes System hat genau einen freien Parameter, also geometrische Vielfachheit 1.
    Man erhält drei Geraden als Eigenräume:
    E6=span ⁣{(2437)}E2=span ⁣{(057)}E3=span ⁣{(001)}\begin{aligned} E_{-6} &= \operatorname{span}\!\left\{ \begin{pmatrix} 24 \\ -3 \\ 7 \end{pmatrix} \right\} \\[4pt] E_{2} &= \operatorname{span}\!\left\{ \begin{pmatrix} 0 \\ 5 \\ 7 \end{pmatrix} \right\} \\[4pt] E_{-3} &= \operatorname{span}\!\left\{ \begin{pmatrix} 0 \\ 0 \\ 1 \end{pmatrix} \right\} \end{aligned}

Beispiel: doppelter Eigenwert mit vollem Eigenraum

  1. Schritt 1: Aufgabe
    Hier prüfen wir, was passiert, wenn ein Eigenwert mehrfach auftritt.
    Berechne Eigenwerte und Eigenvektoren samt Vielfachheiten von
    A=(344058047)A = \begin{pmatrix} -3 & 4 & -4 \\ 0 & 5 & -8 \\ 0 & 4 & -7 \end{pmatrix}
  2. Schritt 2: charakteristisches Polynom
    Die erste Spalte hat unter der Diagonalen nur Nullen, also nach der ersten Spalte entwickeln.
    Es ergibt sich
    PA(λ)=(3+λ)2(λ1)=0P_A(\lambda) = (3 + \lambda)^2 (\lambda - 1) = 0
  3. Schritt 3: Eigenwerte mit Vielfachheit
    Der Faktor (3+λ)2(3+\lambda)^2 ist doppelt, also hat λ=3\lambda = -3 algebraische Vielfachheit 2.
    Zwei Eigenwerte:
    λ1=3  (alg. Vielfachheit 2)λ2=1  (alg. Vielfachheit 1)\begin{aligned} \lambda_1 &= -3 \;\text{(alg. Vielfachheit 2)} \\ \lambda_2 &= 1 \;\text{(alg. Vielfachheit 1)} \end{aligned}
  4. Schritt 4: Eigenraum zu λ₁ = -3
    Einsetzen liefert ein System mit zwei freien Parametern, also geometrische Vielfachheit 2. Hier stimmt sie mit der algebraischen überein.
    Der Eigenraum ist eine ganze Ebene:
    E3=span ⁣{(100),(011)}E_{-3} = \operatorname{span}\!\left\{ \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix}, \begin{pmatrix} 0 \\ 1 \\ 1 \end{pmatrix} \right\}
  5. Schritt 5: Eigenraum zu λ₂ = 1
    Ein freier Parameter, geometrische Vielfachheit 1.
    Eine Gerade:
    E1=span ⁣{(121)}E_{1} = \operatorname{span}\!\left\{ \begin{pmatrix} 1 \\ 2 \\ 1 \end{pmatrix} \right\}
Notation Notation: λ
λ\lambda (Lambda) ist der Eigenwert, der Streckfaktor entlang einer erhaltenen Richtung. Er darf 00, negativ oder komplex sein.
Notation Notation: I
II ist die Einheitsmatrix (Einsen auf der Diagonalen, sonst Nullen). Manche Texte schreiben dafür die Doppelstrich-Eins 1\mathbb{1}; gemeint ist dasselbe.
Definition Eigenwert / Eigenvektor
λ\lambda und x0\mathbf{x} \neq \mathbf{0} mit Ax=λxA\mathbf{x} = \lambda\mathbf{x}. Der Vektor behält seine Richtung, AA streckt ihn nur um λ\lambda.
Notation Notation: PA(λ)P_A(\lambda)
PA(λ)=det(AλI)P_A(\lambda) = \det(A - \lambda I), das charakteristische Polynom. Grad nn, seine Nullstellen sind die Eigenwerte.
Formel Schlüsselgleichung
det(AλI)=0\det(A - \lambda I) = 0
Bestimmt alle Eigenwerte. Folgt daraus, dass (AλI)x=0(A - \lambda I)\mathbf{x} = \mathbf{0} nur für singuläres AλIA - \lambda I nichttrivial lösbar ist.
Definition Eigenraum EλE_\lambda
Eλ=ker(AλI)E_\lambda = \ker(A - \lambda I), alle Eigenvektoren zu λ\lambda plus 0\mathbf{0}. Seine Dimension ist die geometrische Vielfachheit.
Querverweis Die Determinante und der Kern stammen aus Kapitel 3 (Determinanten) und Kapitel 4 (Kern und Bild). Die charakteristische Gleichung baut direkt darauf auf.

6.1.2 Ähnlichkeit und Diagonalisierbarkeit

Frage: Was ist die einfachste Matrix, die dasselbe tut wie AA, nur in einem klügeren Koordinatensystem? Erinnere dich an die Eigenrichtungen aus 6.1.1: In ihnen wirkt AA wie eine Streckung um eine Zahl. Wenn wir die Eigenvektoren als neue Achsen wählen, wird AA entlang jeder Achse zu einer reinen Multiplikation, also zu einer Diagonalmatrix. Genau das leistet die Diagonalisierung.

Den Wechsel des Koordinatensystems beschreibt die Ähnlichkeit. Zwei Matrizen AA und BB heissen ähnlich, wenn es eine reguläre (invertierbare) Matrix TT gibt mit B=T1ATB = T^{-1}AT. Anschaulich: BB ist dieselbe lineare Abbildung wie AA, nur beschrieben in der Basis, deren Spalten in TT stehen. Ähnliche Matrizen sind im Kern identisch, nur verschieden notiert.

!!
Ähnlichkeit
B=T1AT,T regula¨rB = T^{-1} A T, \qquad T \text{ regulär}
B ist dieselbe Abbildung wie A, ausgedrückt in der Basis aus den Spalten von T.

Eine quadratische Matrix AA heisst diagonalisierbar, wenn sie zu einer Diagonalmatrix ähnlich ist: Es gibt ein reguläres TT mit T1AT=D=diag(d1,,dn)T^{-1}AT = D = \operatorname{diag}(d_1, \ldots, d_n). Die entscheidende Frage ist: Wann geht das? Antwort: genau dann, wenn AA genügend Eigenvektoren besitzt, nämlich nn linear unabhängige, die zusammen eine Eigenbasis bilden.

Diese Eigenbasis ist die Bauanleitung für TT: Die Spalten von TT sind die Eigenvektoren, und die Diagonale von DD sind die zugehörigen Eigenwerte, in genau derselben Reihenfolge. Steht in Spalte 1 von TT ein Eigenvektor zu λ1\lambda_1, so muss in der ersten Diagonalposition von DD auch λ1\lambda_1 stehen. Vertauscht man die Reihenfolge in nur einer der beiden Matrizen, stimmt T1AT=DT^{-1}AT = D nicht mehr.

!!!
Diagonalisierung
T1AT=D=diag(d1,d2,,dn)T^{-1} A T = D = \operatorname{diag}(d_1, d_2, \ldots, d_n)
Spalten von T = Eigenvektoren; Diagonale von D = zugehörige Eigenwerte, gleiche Reihenfolge.

Zwei Sprechweisen helfen, Spezialfälle schnell einzuordnen. Eine Matrix heisst einfach, wenn jeder Eigenwert algebraische Vielfachheit 1 hat (also nn verschiedene Eigenwerte). Sie heisst halbeinfach, wenn bei jedem Eigenwert algebraische und geometrische Vielfachheit übereinstimmen. Jede einfache Matrix ist auch halbeinfach (verschiedene Eigenwerte liefern automatisch genug unabhängige Eigenvektoren), aber nicht umgekehrt.

Und nun der zentrale Satz dieses Abschnitts, eine Kette von Gleichwertigkeiten: Eine Matrix ist halbeinfach \Leftrightarrow sie besitzt eine Eigenbasis \Leftrightarrow sie ist diagonalisierbar. Alle drei Formulierungen meinen dasselbe. In der Praxis prüft man Diagonalisierbarkeit also so: Für jeden Eigenwert nachrechnen, ob geometrische = algebraische Vielfachheit. Stimmt es überall, ist AA diagonalisierbar; scheitert es an einem einzigen Eigenwert, nicht.

!!!
Kriterium für Diagonalisierbarkeit
A halbeinfach    A besitzt Eigenbasis    A diagonalisierbar\begin{aligned} A \text{ halbeinfach} \;&\Longleftrightarrow\; A \text{ besitzt Eigenbasis} \\ \;&\Longleftrightarrow\; A \text{ diagonalisierbar} \end{aligned}
Praktisch: bei jedem Eigenwert muss geometrische Vielfachheit = algebraische Vielfachheit sein.

Beispiel: diagonalisierbar (zwei verschiedene Eigenwerte)

  1. Schritt 1: Aufgabe
    Wir prüfen Diagonalisierbarkeit über das Vielfachheits-Kriterium.
    Gegeben
    A=(1124)A = \begin{pmatrix} 1 & -1 \\ 2 & 4 \end{pmatrix}
  2. Schritt 2: charakteristisches Polynom
    det(AλI)\det(A - \lambda I) ausrechnen.
    Es ergibt eine quadratische Gleichung, die in zwei verschiedene Linearfaktoren zerfällt:
    PA(λ)=λ25λ+6=(λ2)(λ3)P_A(\lambda) = \lambda^2 - 5\lambda + 6 = (\lambda - 2)(\lambda - 3)
  3. Schritt 3: Eigenwerte
    Zwei verschiedene Nullstellen, jede algebraische Vielfachheit 1.
    Damit ist AA sogar einfach, also auf jeden Fall diagonalisierbar:
    λ1=2,λ2=3\lambda_1 = 2, \qquad \lambda_2 = 3
  4. Schritt 4: Eigenräume
    Je ein freier Parameter, geometrische Vielfachheit 1 = algebraische Vielfachheit.
    Die Eigenräume sind
    E2=span ⁣{(11)},E3=span ⁣{(12)}E_{2} = \operatorname{span}\!\left\{ \begin{pmatrix} -1 \\ 1 \end{pmatrix} \right\}, \qquad E_{3} = \operatorname{span}\!\left\{ \begin{pmatrix} -1 \\ 2 \end{pmatrix} \right\}
  5. Schritt 5: Schlussfolgerung
    Bei jedem Eigenwert stimmt geometrische = algebraische Vielfachheit.
    AA ist diagonalisierbar, mit D=diag(2,3)D = \operatorname{diag}(2,3) und T=(1112)T = \begin{pmatrix} -1 & -1 \\ 1 & 2 \end{pmatrix} (Eigenvektoren als Spalten, gleiche Reihenfolge wie DD).

Gegenbeispiel: NICHT diagonalisierbar (zu wenige Eigenvektoren)

  1. Schritt 1: Aufgabe
    Dasselbe Kriterium, aber jetzt scheitert es. Dieses Beispiel zeigt, warum man die geometrische Vielfachheit wirklich ausrechnen muss.
    Gegeben
    B=(110414211)B = \begin{pmatrix} 1 & 1 & 0 \\ 4 & 1 & 4 \\ -2 & -1 & -1 \end{pmatrix}
  2. Schritt 2: charakteristisches Polynom
    Determinante von BλIB - \lambda I.
    Es ergibt sich ein doppelter Faktor:
    PB(λ)=(λ1)2(λ+1)P_B(\lambda) = -(\lambda - 1)^2 (\lambda + 1)
  3. Schritt 3: Eigenwerte mit Vielfachheit
    Der Faktor (λ1)2(\lambda - 1)^2 ist doppelt.
    Eigenwerte:
    λ1=1  (alg. Vielfachheit 2)λ2=1  (alg. Vielfachheit 1)\begin{aligned} \lambda_1 &= 1 \;\text{(alg. Vielfachheit 2)} \\ \lambda_2 &= -1 \;\text{(alg. Vielfachheit 1)} \end{aligned}
  4. Schritt 4: Eigenraum zu λ₁ = 1
    Jetzt zählt, wie viele freie Parameter herauskommen.
    Das System liefert nur einen freien Parameter, also geometrische Vielfachheit 1:
    E1=span ⁣{(101)}E_{1} = \operatorname{span}\!\left\{ \begin{pmatrix} 1 \\ 0 \\ -1 \end{pmatrix} \right\}
  5. Schritt 5: Schlussfolgerung
    Geometrische Vielfachheit (1) << algebraische Vielfachheit (2) bei λ=1\lambda = 1.
    Es fehlt ein Eigenvektor. BB besitzt keine Eigenbasis und ist nicht diagonalisierbar.
Definition Ähnlich
AA und BB heissen ähnlich, wenn B=T1ATB = T^{-1}AT für ein reguläres TT. Gleiche Eigenwerte, gleiches charakteristisches Polynom.
Notation Notation: D, T
D=diag(d1,,dn)D = \operatorname{diag}(d_1,\ldots,d_n) ist die Diagonalmatrix der Eigenwerte, TT die Matrix mit den Eigenvektoren als Spalten (die Transformationsmatrix).
Definition Diagonalisierbar
AA ist zu einer Diagonalmatrix ähnlich: T1AT=DT^{-1}AT = D. Gleichbedeutend mit „besitzt eine Eigenbasis" und „ist halbeinfach".
Definition Einfach / halbeinfach
einfach: jeder Eigenwert hat algebraische Vielfachheit 1. halbeinfach: bei jedem Eigenwert ist geometrische = algebraische Vielfachheit. Einfach \Rightarrow halbeinfach.
Merke Reihenfolge
Immer dieselbe Reihenfolge in TT und DD! Eigenvektor in Spalte ii von TT, sein Eigenwert in Position ii von DD.

6.2Eigenwertproblem symmetrischer Matrizen

6.2.1 Der Spektralsatz

Frage: Was ist so besonders an einer Matrix mit A=ATA = A^{\mathsf{T}}? Eine symmetrische Matrix ist spiegelsymmetrisch zur Hauptdiagonalen, der Eintrag links unten gleicht dem rechts oben. Solche Matrizen tauchen überall auf, wo es um Längen, Energien, Krümmungen oder quadratische Formen geht (wir treffen sie gleich in 6.3.4 bis 6.3.6 wieder). Und sie haben das schönste denkbare Eigenwertproblem.

Die Analogie dazu: Eine allgemeine diagonalisierbare Matrix dreht und schert ihre Eigenrichtungen schief gegeneinander (denk an ein verzerrtes Koordinatengitter). Eine symmetrische Matrix dagegen besitzt Eigenrichtungen, die paarweise rechtwinklig aufeinander stehen: ein sauberes, rechtwinkliges Achsenkreuz, das man nur drehen, nie verzerren muss. Genau das macht alle Rechnungen leicht.

Der zugehörige Satz (oft Spektralsatz genannt) bündelt fünf Aussagen für symmetrische ARn×nA \in \mathbb{R}^{n \times n}:

Eigenschaft Was sie bedeutet
(a) Alle Eigenwerte reell Kein komplexer Eigenwert, nie. Man rechnet immer in R\mathbb{R}.
(b) Orthogonale Eigenvektoren Eigenvektoren zu verschiedenen Eigenwerten stehen senkrecht aufeinander.
(c) Halbeinfach Immer diagonalisierbar, auch bei mehrfachen Eigenwerten.
(d) Orthonormalbasis (ONB) Es existiert eine Eigenbasis aus Vektoren der Länge 1, die paarweise senkrecht sind.
(e) Orthogonales TT Mit normierten Eigenvektoren als Spalten gilt T1=TTT^{-1} = T^{\mathsf{T}}, also TTAT=DT^{\mathsf{T}} A T = D.
Spektralsatz: was eine symmetrische Matrix A=ATA = A^{\mathsf{T}} garantiert
!!!
Spektralsatz (orthogonale Diagonalisierung)
T1AT=TTAT=diag(d1,,dn),A=ATT^{-1} A T = T^{\mathsf{T}} A T = \operatorname{diag}(d_1, \ldots, d_n), \qquad A = A^{\mathsf{T}}
TT orthogonal, das heisst T1=TTT^{-1} = T^{\mathsf{T}}. Spalten von TT = normierte, paarweise orthogonale Eigenvektoren.

Warum stehen die Eigenvektoren senkrecht? Kurz angedeutet: Für A=ATA = A^{\mathsf{T}} und zwei Eigenpaare Au=λuA\mathbf{u} = \lambda\mathbf{u}, Av=μvA\mathbf{v} = \mu\mathbf{v} mit λμ\lambda \neq \mu gilt λu,v=Au,v=u,Av=μu,v\lambda\,\langle \mathbf{u}, \mathbf{v}\rangle = \langle A\mathbf{u}, \mathbf{v}\rangle = \langle \mathbf{u}, A\mathbf{v}\rangle = \mu\,\langle \mathbf{u}, \mathbf{v}\rangle. Wegen λμ\lambda \neq \mu muss das Skalarprodukt u,v=0\langle \mathbf{u}, \mathbf{v}\rangle = 0 sein, die Vektoren stehen also senkrecht. Diese Orthogonalität ist der Grund, warum bei symmetrischen Matrizen alles so glatt aufgeht.

Definition Symmetrische Matrix
A=ATA = A^{\mathsf{T}}: spiegelsymmetrisch zur Hauptdiagonalen. Über R\mathbb{R} sind dann alle Eigenwerte reell.
Definition Orthonormale Eigenbasis
Eine Eigenbasis aus Vektoren der Länge 1, die paarweise senkrecht aufeinander stehen. Für symmetrische AA existiert sie stets.
Notation Notation: orthogonale Matrix
TT heisst orthogonal, wenn TTT=IT^{\mathsf{T}} T = I, also T1=TTT^{-1} = T^{\mathsf{T}}. Die Spalten bilden eine Orthonormalbasis.
Formel Schlüsselformel
TTAT=DT^{\mathsf{T}} A T = D
Orthogonale Diagonalisierung einer symmetrischen Matrix. Statt TT zu invertieren, genügt das Transponieren.
Querverweis Das Skalarprodukt ,\langle\cdot,\cdot\rangle und Orthogonalität kommen aus Kapitel 4 (Vektorräume). Symmetrische Matrizen und ihre orthogonale Diagonalisierung sind auch die Grundlage der Singulärwertzerlegung in Kapitel 9.

6.2.2 Durchgerechnete Beispiele

Drei vollständig durchgerechnete Beispiele zeigen das Vorgehen: Eigenwerte finden, Eigenräume bestimmen, DD und TT aufschreiben und prüfen, ob TT orthogonal gewählt werden kann. Das erste ist bewusst nicht symmetrisch (zum Kontrast), die anderen beiden sind es.

Beispiel: nicht-symmetrische 3×3-Matrix diagonalisieren

  1. Schritt 1: Aufgabe
    Diagonalisieren, Invertierbarkeit prüfen, klären ob TT orthogonal sein kann.
    Gegeben
    A=(344058047)A = \begin{pmatrix} -3 & 4 & -4 \\ 0 & 5 & -8 \\ 0 & 4 & -7 \end{pmatrix}
  2. Schritt 2: charakteristisches Polynom
    Erste Spalte hat unter der Diagonalen Nullen, also nach Spalte 1 entwickeln.
    PA(λ)=(λ1)(λ+3)2P_A(\lambda) = -(\lambda - 1)(\lambda + 3)^2
  3. Schritt 3: Eigenwerte
    Faktor (λ+3)2(\lambda+3)^2 doppelt.
    λ1=3  (alg. 2),λ2=1  (alg. 1)\lambda_1 = -3 \;\text{(alg. 2)}, \qquad \lambda_2 = 1 \;\text{(alg. 1)}
  4. Schritt 4: Eigenräume
    Zu λ1=3\lambda_1 = -3 kommen zwei freie Parameter (geometrische Vielfachheit 2 = algebraische), zu λ2=1\lambda_2 = 1 einer. Also diagonalisierbar.
    E3=span ⁣{(100),(011)}E1=span ⁣{(121)}\begin{aligned} E_{-3} &= \operatorname{span}\!\left\{ \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix}, \begin{pmatrix} 0 \\ 1 \\ 1 \end{pmatrix} \right\} \\[4pt] E_{1} &= \operatorname{span}\!\left\{ \begin{pmatrix} 1 \\ 2 \\ 1 \end{pmatrix} \right\} \end{aligned}
  5. Schritt 5: D und T aufschreiben
    Eigenwerte in DD, zugehörige Eigenvektoren als Spalten von TT, gleiche Reihenfolge.
    D=diag(3,3,1),T=(101012011)D = \operatorname{diag}(-3, -3, 1), \qquad T = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 2 \\ 0 & 1 & 1 \end{pmatrix}
  6. Schritt 6: invertierbar?
    Determinante als Produkt der Eigenwerte (mit Vielfachheit) ist viel schneller als direkte Rechnung.
    Kein Eigenwert ist 00, also ist AA invertierbar:
    det(A)=λ12λ2=(3)21=90\det(A) = \lambda_1^2 \cdot \lambda_2 = (-3)^2 \cdot 1 = 9 \neq 0
  7. Schritt 7: T orthogonal?
    TT orthogonal ginge nur bei symmetrischem AA.
    AA ist nicht symmetrisch, und tatsächlich stehen die Spalten von TT nicht senkrecht aufeinander. TT kann hier nicht orthogonal gewählt werden.

Beispiel: Matrix aus gegebenen Eigenwerten und -vektoren rekonstruieren

  1. Schritt 1: Aufgabe
    Hier sind Eigenwerte und Eigenvektoren bekannt und AA gesucht, also die Diagonalisierung rückwärts.
    Bekannt: (123)\begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix} zu λ1=0\lambda_1 = 0, (456)\begin{pmatrix} 4 \\ 5 \\ 6 \end{pmatrix} zu λ2=3\lambda_2 = -3, (020)\begin{pmatrix} 0 \\ 2 \\ 0 \end{pmatrix} zu λ3=3\lambda_3 = 3. Ist AA diagonalisierbar, und wie lautet AA?
  2. Schritt 2: Diagonalisierbarkeit
    Alle Eigenwerte sind verschieden, also algebraische und geometrische Vielfachheit überall 1.
    AA ist diagonalisierbar. Aus T1AT=DT^{-1}AT = D folgt umgestellt
  3. Schritt 3: D und T aufschreiben
    Eigenwerte in DD, Eigenvektoren als Spalten von TT, gleiche Reihenfolge.
    A=TDT1,D=diag(0,3,3),T=(140252360)A = T D T^{-1}, \qquad D = \operatorname{diag}(0, -3, 3), \qquad T = \begin{pmatrix} 1 & 4 & 0 \\ 2 & 5 & 2 \\ 3 & 6 & 0 \end{pmatrix}
  4. Schritt 4: T⁻¹ bestimmen
    Für A=TDT1A = T D T^{-1} braucht man die Inverse von TT. Da AA nicht symmetrisch ist, hilft kein Transponieren, man rechnet T1T^{-1} über Gauss-Jordan.
    Man wendet Gauss-Jordan auf [TI][\,T \mid I\,] an, bis links II steht; rechts erscheint dann T1T^{-1}.
  5. Schritt 5: A ausmultiplizieren
    Jetzt A=TDT1A = T D T^{-1} einsetzen.
    Das Produkt ergibt
    A=TDT1=(602931903)A = T D T^{-1} = \begin{pmatrix} -6 & 0 & 2 \\ -9 & 3 & 1 \\ -9 & 0 & 3 \end{pmatrix}

Beispiel: symmetrische 4×4-Matrix, T orthogonal

  1. Schritt 1: Aufgabe
    Symmetrische Matrix, also greift der Spektralsatz: TT kann orthogonal gewählt werden.
    Gegeben (man prüfe A=ATA = A^{\mathsf{T}})
    A=(2001020000201002)A = \begin{pmatrix} 2 & 0 & 0 & 1 \\ 0 & 2 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 1 & 0 & 0 & 2 \end{pmatrix}
  2. Schritt 2: charakteristisches Polynom
    Wegen der vielen Nullen zerfällt die Determinante bequem.
    PA(λ)=(2λ)2(3λ)(1λ)P_A(\lambda) = (2 - \lambda)^2 (3 - \lambda)(1 - \lambda)
  3. Schritt 3: Eigenwerte
    Faktor (2λ)2(2-\lambda)^2 doppelt.
    λ=2  (alg. 2),λ=3,λ=1\lambda = 2 \;\text{(alg. 2)}, \qquad \lambda = 3, \qquad \lambda = 1
  4. Schritt 4: Eigenräume
    Zu λ=2\lambda = 2 zwei freie Parameter (geometrische Vielfachheit 2), zu λ=3\lambda = 3 und λ=1\lambda = 1 je einer.
    E2=span ⁣{e2,e3}E3=span ⁣{(1001)}E1=span ⁣{(1001)}\begin{aligned} E_{2} &= \operatorname{span}\!\left\{ \mathbf{e}_2, \mathbf{e}_3 \right\} \\[4pt] E_{3} &= \operatorname{span}\!\left\{ \begin{pmatrix} 1 \\ 0 \\ 0 \\ 1 \end{pmatrix} \right\} \\[4pt] E_{1} &= \operatorname{span}\!\left\{ \begin{pmatrix} 1 \\ 0 \\ 0 \\ -1 \end{pmatrix} \right\} \end{aligned}
  5. Schritt 5: D und orthogonales T
    Die Eigenvektoren stehen bereits senkrecht; man muss sie nur normieren (die zu λ=3\lambda=3 und λ=1\lambda=1 mit 12\tfrac{1}{\sqrt{2}}).
    Mit D=diag(2,2,1,3)D = \operatorname{diag}(2, 2, 1, 3) und normierten Spalten wird TT orthogonal, also T1=TTT^{-1} = T^{\mathsf{T}}:
    T=(00121210000100001212)T = \begin{pmatrix} 0 & 0 & \tfrac{1}{\sqrt{2}} & \tfrac{1}{\sqrt{2}} \\ 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & -\tfrac{1}{\sqrt{2}} & \tfrac{1}{\sqrt{2}} \end{pmatrix}
Merke Symmetrisch?
Nur wenn A=ATA = A^{\mathsf{T}} ist, lässt sich TT orthogonal wählen (T1=TTT^{-1} = T^{\mathsf{T}}). Bei nicht-symmetrischem AA braucht man T1T^{-1} über Gauss-Jordan.
Formel Rückwärts-Form
A=TDT1A = T D T^{-1}
Baut AA aus Eigenwerten (DD) und Eigenvektoren (TT) zusammen. Grundlage aller Anwendungen in 6.3.
Notation Notation: eₖ
ek\mathbf{e}_k ist der kk-te Standardbasisvektor (eine 11 an Position kk, sonst 00).
Querverweis Das Gauss-Jordan-Verfahren zur Berechnung von T1T^{-1} und das Gram-Schmidt-Verfahren stammen aus den Kapiteln 1 und 4.

6.3Anwendungen

6.3.1 Potenzen AkxA^k\mathbf{x} effizient berechnen (Kochrezept)

Frage: Du sollst A100xA^{100}\mathbf{x} berechnen. Naiv wären das 100 Matrixmultiplikationen, eine Tortur. Geht das schneller? Ja, und der Trick ist die Diagonalisierung. In der Eigenbasis ist AA diagonal, und eine Diagonalmatrix zu potenzieren heisst einfach, jeden Diagonaleintrag einzeln zu potenzieren. Aus 100100 teuren Matrixprodukten werden nn harmlose Zahlenpotenzen.

Die Idee in Worten: Wechsle ins Eigenkoordinatensystem (dort ist AA nur ein Strecken mit Zahlen), potenziere die Streckfaktoren, wechsle zurück. Formal nutzt man A=TDT1A = TDT^{-1}, woraus sofort Ak=TDkT1A^k = T D^k T^{-1} folgt, denn beim Ausmultiplizieren von (TDT1)(TDT1)(TDT^{-1})(TDT^{-1})\cdots kürzen sich alle inneren T1T=IT^{-1}T = I weg.

!!
Potenz über Diagonalisierung
Ak=TDkT1,Dk=diag(d1k,d2k,,dnk)A^k = T D^k T^{-1}, \qquad D^k = \operatorname{diag}(d_1^k, d_2^k, \ldots, d_n^k)
Diagonale potenzieren ist trivial. Für symmetrisches AA gilt T1=TTT^{-1} = T^{\mathsf{T}}, also Ak=TDkTTA^k = T D^k T^{\mathsf{T}}.

Das vollständige Kochrezept zum Berechnen von y=Akx\mathbf{y} = A^k\mathbf{x} (für diagonalisierbares AA):

Kochrezept: y=Akx\mathbf{y} = A^k\mathbf{x}

  1. Schritt 1: Eigenwertproblem lösen
    Wir brauchen die Eigenbasis, in der AA diagonal wird.
    Bestimme Eigenwerte und Eigenvektoren, also TT und DD mit
    T1AT=DT^{-1} A T = D
  2. Schritt 2: Startvektor umrechnen
    x\mathbf{x} in Eigenkoordinaten ausdrücken.
    Löse das lineare Gleichungssystem nach z\mathbf{z}:
    Tz=xT\mathbf{z} = \mathbf{x}
  3. Schritt 3: in Eigenkoordinaten potenzieren
    Hier steckt die ganze Ersparnis: DkD^k ist nur das Potenzieren der Diagonale.
    w=Dkz\mathbf{w} = D^k \mathbf{z}
  4. Schritt 4: zurücktransformieren
    Vom Eigenkoordinatensystem zurück in die Standardbasis.
    y=Tw\mathbf{y} = T\mathbf{w}
  5. Schritt 5: Spezialfall symmetrisch
    Bei A=ATA = A^{\mathsf{T}} ist TT orthogonal, T1=TTT^{-1} = T^{\mathsf{T}} ist gratis.
    Dann braucht man T1T^{-1} nicht zu invertieren:
    Ak=TDkTTA^k = T D^k T^{\mathsf{T}}
  6. Schritt 6: Spezialfall nicht symmetrisch
    Sonst T1T^{-1} über Gauss-Jordan.
    Allgemein gilt
    Ak=TDkT1A^k = T D^k T^{-1}

Beispiel: AnA^n und die Fibonacci-Matrix

  1. Schritt 1: Aufgabe
    Diese Matrix erzeugt beim Potenzieren die Fibonacci-Zahlen, ein berühmtes Beispiel.
    Berechne AnA^n für
    A=(1110)A = \begin{pmatrix} 1 & 1 \\ 1 & 0 \end{pmatrix}
  2. Schritt 2: charakteristisches Polynom
    det(AλI)\det(A - \lambda I).
    PA(λ)=λ2λ1=0P_A(\lambda) = \lambda^2 - \lambda - 1 = 0
  3. Schritt 3: Eigenwerte (goldener Schnitt)
    Mitternachtsformel. Die beiden Werte sind der goldene Schnitt und sein Partner.
    λ1,2=1±52\lambda_{1,2} = \frac{1 \pm \sqrt{5}}{2}
  4. Schritt 4: Eigenvektoren
    Aus (AλI)x=0(A - \lambda I)\mathbf{x} = \mathbf{0} folgt x1=λx2x_1 = \lambda\,x_2.
    Mit λ1,λ2\lambda_1, \lambda_2 als Streckfaktoren erhält man die Eigenräume
    Eλ1=span ⁣{(λ11)}Eλ2=span ⁣{(λ21)}\begin{aligned} E_{\lambda_1} &= \operatorname{span}\!\left\{ \begin{pmatrix} \lambda_1 \\ 1 \end{pmatrix} \right\} \\[4pt] E_{\lambda_2} &= \operatorname{span}\!\left\{ \begin{pmatrix} \lambda_2 \\ 1 \end{pmatrix} \right\} \end{aligned}
  5. Schritt 5: D, T und T⁻¹
    AA ist nicht symmetrisch, also T1T^{-1} über die 2×22\times2-Formel.
    Mit D=diag(λ1,λ2)D = \operatorname{diag}(\lambda_1, \lambda_2) und T=(λ1λ211)T = \begin{pmatrix} \lambda_1 & \lambda_2 \\ 1 & 1 \end{pmatrix}:
    T1=15(1λ21λ1)T^{-1} = \frac{1}{\sqrt{5}} \begin{pmatrix} 1 & -\lambda_2 \\ -1 & \lambda_1 \end{pmatrix}
  6. Schritt 6: Potenz zusammensetzen
    Jetzt An=TDnT1A^n = T D^n T^{-1} mit Dn=diag(λ1n,λ2n)D^n = \operatorname{diag}(\lambda_1^n, \lambda_2^n).
    An=TDnT1=Tdiag(λ1n,λ2n)T1A^n = T D^n T^{-1} = T \operatorname{diag}(\lambda_1^n, \lambda_2^n)\, T^{-1}
Formel Schlüsselformel
Ak=TDkT1A^k = T D^k T^{-1}
Potenz über Diagonalisierung. DkD^k ist nur das Potenzieren der Diagonaleinträge.
Merke Eigenwerte von AkA^k
Sie sind λik\lambda_i^k; die Eigenvektoren bleiben unverändert.
Querverweis Dieselbe Diagonalisierung steckt hinter dem Lösen linearer Differentialgleichungssysteme (Kapitel 8): Dort potenziert man nicht, sondern bildet etDe^{tD}, der nächste Abschnitt 6.3.2 schlägt die Brücke.

6.3.2 Das Matrixexponential eAe^A berechnen (Kochrezept)

Frage: Was soll ee hoch eine ganze Matrix überhaupt heissen? Für eine Zahl xx kennt man ex=1+x+x22!+x33!+e^x = 1 + x + \tfrac{x^2}{2!} + \tfrac{x^3}{3!} + \cdots. Dieselbe Reihe schreibt man für eine Matrix hin, indem man xx durch AA ersetzt und Potenzen von AA einsetzt. Das Ergebnis eAe^A ist wieder eine Matrix. Diese Konstruktion ist nicht exotisch: Sie ist die Lösung linearer Differentialgleichungssysteme x˙=Ax\dot{\mathbf{x}} = A\mathbf{x} und taucht in Kapitel 8 und in Analysis wieder auf.

Wie rechnet man eAe^A aus, ohne eine unendliche Summe von Matrixpotenzen zu bilden? Wieder über die Diagonalisierung. Setzt man An=TDnT1A^n = TD^nT^{-1} in die Reihe ein und zieht TT und T1T^{-1} heraus, bleibt in der Mitte die Reihe für ee angewandt auf jeden Diagonaleintrag. Eine Diagonalmatrix exponenziert man also einfach Eintrag für Eintrag.

Matrixexponential (Definition)
eA=n=0Ann!e^A = \sum_{n=0}^{\infty} \frac{A^n}{n!}
Dieselbe Reihe wie für eˣ, nur mit Matrixpotenzen Aⁿ statt Zahlenpotenzen.
!!
Matrixexponential über Diagonalisierung
eA=TeDT1eD=diag ⁣(ed1,ed2,,edn)\begin{aligned} e^A &= T\, e^{D}\, T^{-1} \\ e^{D} &= \operatorname{diag}\!\left(e^{d_1}, e^{d_2}, \ldots, e^{d_n}\right) \end{aligned}
eDe^D exponenziert nur die Diagonale. Für symmetrisches AA ist T1=TTT^{-1} = T^{\mathsf{T}}.

Fünf Rechenregeln vereinfachen den Umgang mit eAe^A. Besonders die zweite ist der eigentliche Grund, warum das Matrixexponential in Differentialgleichungen auftaucht.

Rechenregeln für das Matrixexponential
(eAT)=(eA)Tddt ⁣(etA)=AetA(eA)1=eAeP1AP=P1eAP\begin{aligned} \left(e^{A^{\mathsf{T}}}\right) &= \left(e^{A}\right)^{\mathsf{T}} &\qquad& \frac{d}{dt}\!\left(e^{tA}\right) &= A\, e^{tA} \\ \left(e^{A}\right)^{-1} &= e^{-A} &\qquad& e^{P^{-1} A P} &= P^{-1} e^{A} P \end{aligned}
Die zweite Regel ist der Grund, warum etAe^{tA} lineare Differentialgleichungssysteme löst.
!!
Determinante des Matrixexponentials
det ⁣(eA)=espur(A)\det\!\left(e^{A}\right) = e^{\operatorname{spur}(A)}
spur(A) = Summe der Diagonaleinträge = Summe der Eigenwerte.

Beispiel: eAe^A einer 2×2-Matrix

  1. Schritt 1: Aufgabe
    Volle Rechnung von eAe^A über die Diagonalisierung.
    Gegeben
    A=(5634)A = \begin{pmatrix} 5 & -6 \\ 3 & -4 \end{pmatrix}
  2. Schritt 2: Eigenwerte
    det(AλI)\det(A - \lambda I) faktorisieren.
    PA(λ)=λ2λ2=(λ2)(λ+1)    λ1=2,  λ2=1P_A(\lambda) = \lambda^2 - \lambda - 2 = (\lambda - 2)(\lambda + 1) \;\Rightarrow\; \lambda_1 = 2,\; \lambda_2 = -1
  3. Schritt 3: Eigenvektoren
    Je (AλI)x=0(A - \lambda I)\mathbf{x} = \mathbf{0} lösen.
    E2=span ⁣{(21)},E1=span ⁣{(11)}E_{2} = \operatorname{span}\!\left\{ \begin{pmatrix} 2 \\ 1 \end{pmatrix} \right\}, \qquad E_{-1} = \operatorname{span}\!\left\{ \begin{pmatrix} 1 \\ 1 \end{pmatrix} \right\}
  4. Schritt 4: D, T, T⁻¹
    AA ist nicht symmetrisch, T1T^{-1} über die 2×22\times2-Formel.
    D=diag(2,1),T=(2111),T1=(1112)D = \operatorname{diag}(2, -1), \quad T = \begin{pmatrix} 2 & 1 \\ 1 & 1 \end{pmatrix}, \quad T^{-1} = \begin{pmatrix} 1 & -1 \\ -1 & 2 \end{pmatrix}
  5. Schritt 5: einsetzen
    eA=TeDT1e^A = T\, e^D\, T^{-1} mit eD=diag(e2,e1)e^D = \operatorname{diag}(e^2, e^{-1}).
    Ausmultipliziert ergibt sich
    eA=(2e2e12e2+2e1e2e12e1e2)e^{A} = \begin{pmatrix} 2e^2 - e^{-1} & -2e^2 + 2e^{-1} \\ e^2 - e^{-1} & 2e^{-1} - e^2 \end{pmatrix}

Beispiel: det(eA)\det(e^A) ohne eAe^A auszurechnen

  1. Schritt 1: Aufgabe
    Mit der Spur-Regel geht das in zwei Zeilen, ganz ohne das Matrixexponential selbst.
    Bestimme det(eA)\det(e^A) für
    A=diag(1,3,19)A = \operatorname{diag}(1, 3, 19)
  2. Schritt 2: Spur
    Die Diagonaleinträge sind hier zugleich die Eigenwerte; ihre Summe ist die Spur.
    spur(A)=λ1+λ2+λ3=1+3+19=23\operatorname{spur}(A) = \lambda_1 + \lambda_2 + \lambda_3 = 1 + 3 + 19 = 23
  3. Schritt 3: Regel anwenden
    det(eA)=espur(A)\det(e^A) = e^{\operatorname{spur}(A)}.
    det ⁣(eA)=espur(A)=e23\det\!\left(e^{A}\right) = e^{\operatorname{spur}(A)} = e^{23}
Notation Notation: eAe^A, eDe^D
eA=nAn/n!e^A = \sum_n A^n/n! (Matrix). eD=diag(ed1,,edn)e^D = \operatorname{diag}(e^{d_1},\ldots,e^{d_n}), das Exponential der Diagonale.
Formel Schlüsselformel
eA=TeDT1e^A = T e^D T^{-1}
Matrixexponential über Diagonalisierung. Mitte: ee auf jeden Diagonaleintrag.
Notation Notation: spur(A)
Die Spur spur(A)\operatorname{spur}(A) ist die Summe der Diagonaleinträge, gleich der Summe der Eigenwerte (mit Vielfachheit).
Merke Wozu?
ddtetA=AetA\tfrac{d}{dt}\,e^{tA} = A\,e^{tA}: Darum löst x(t)=etAx0\mathbf{x}(t) = e^{tA}\mathbf{x}_0 das System x˙=Ax\dot{\mathbf{x}} = A\mathbf{x}.
Querverweis Lineare Differentialgleichungssysteme mit konstanten Koeffizienten (Kapitel 8) sowie die DGL-Kapitel der Analysis nutzen etAe^{tA} als Lösungsoperator.

6.3.3 Die Matrixnorm

Frage: Eine Matrix nimmt einen Vektor und macht ihn länger oder kürzer. Um welchen Faktor höchstens? Diese maximale Verstärkung ist die Matrixnorm. Anschaulich: Schickt man alle Einheitsvektoren (Länge 1) durch AA, so misst A\lVert A\rVert die Länge des längsten herauskommenden Vektors. Sie sagt, wie stark AA im schlimmsten Fall streckt.

Es gibt mehrere Matrixnormen; welche am leichtesten zu berechnen ist, hängt vom Typ der Matrix ab. Die wichtigste ist die Spektralnorm A2\lVert A\rVert_2. Für eine beliebige quadratische Matrix ist sie die Wurzel aus dem grössten Eigenwert von ATAA^{\mathsf{T}} A (dieser ist immer reell und nicht-negativ, weil ATAA^{\mathsf{T}} A symmetrisch und positiv semidefinit ist).

!!
Spektralnorm (allgemein)
A2=μmax,μmax=gro¨sster Eigenwert von ATA\lVert A \rVert_2 = \sqrt{\mu_{\max}}, \qquad \mu_{\max} = \text{grösster Eigenwert von } A^{\mathsf{T}} A
μ steht hier für die Eigenwerte von ATAA^{\mathsf{T}}A. Diese sind stets reell und 0\geq 0.

Für spezielle Matrizen vereinfacht sich das stark. Ist AA orthogonal, so erhält es alle Längen, also A2=1\lVert A\rVert_2 = 1. Ist AA symmetrisch, so ist ATA=A2A^{\mathsf{T}} A = A^2 und man kann direkt die Eigenwerte von AA nehmen: A2=maxiλi\lVert A\rVert_2 = \max_i |\lambda_i|. Für die Inverse einer regulären Matrix gilt A12=1/μmin\lVert A^{-1}\rVert_2 = 1/\sqrt{\mu_{\min}}, mit dem kleinsten Eigenwert von ATAA^{\mathsf{T}} A; bei zusätzlich symmetrischem AA wird daraus 1/miniλi1/\min_i |\lambda_i|.

Daneben gibt es zwei sehr schnell ablesbare Normen, die gar keine Eigenwerte brauchen: die Spaltensummennorm A1\lVert A\rVert_1 (grösste Summe der Beträge je Spalte) und die Zeilensummennorm A\lVert A\rVert_\infty (grösste Summe der Beträge je Zeile). Man bildet für jede Spalte bzw. Zeile die Summe der Beträge und nimmt das Maximum.

Norm Formel Bemerkung
A2\lVert A\rVert_2 (allgemein) μmax\sqrt{\mu_{\max}}, grösster EW von ATAA^{\mathsf{T}} A immer gültig, aber rechenaufwendig
A2\lVert A\rVert_2 (orthogonal) =1= 1 Längen bleiben erhalten
A2\lVert A\rVert_2 (symmetrisch) maxiλi\max_i |\lambda_i| betragsgrösster Eigenwert von AA selbst
A12\lVert A^{-1}\rVert_2 (regulär) 1/μmin1/\sqrt{\mu_{\min}} kleinster EW von ATAA^{\mathsf{T}} A
A12\lVert A^{-1}\rVert_2 (regulär + sym.) 1/miniλi1/\min_i |\lambda_i| betragskleinster Eigenwert von AA
A1\lVert A\rVert_1 max. Spaltensummennorm Beträge je Spalte summieren, Maximum
A\lVert A\rVert_\infty max. Zeilensummennorm Beträge je Zeile summieren, Maximum
Welche Matrixnorm bei welchem Matrixtyp am schnellsten geht

Beispiele: Matrixnormen ablesen

  1. Schritt 1: Spektralnorm einer symmetrischen Diagonalmatrix
    Bei symmetrischem AA ist A2=maxiλi\lVert A\rVert_2 = \max_i|\lambda_i|, hier sind die Diagonaleinträge die Eigenwerte.
    Für A=diag(1,3,19)A = \operatorname{diag}(1, 3, 19):
    A2=maxiλi=19\lVert A \rVert_2 = \max_i |\lambda_i| = 19
  2. Schritt 2: Zeilensummennorm
    Beträge je Zeile summieren, Maximum nehmen.
    Für A=(1273423331241042237)A = \begin{pmatrix} 1 & 2 & 7 & -34 \\ 2 & 3 & 3 & -3 \\ 12 & 4 & 10 & -4 \\ 2 & 2 & 3 & -7 \end{pmatrix} ist Zeile 1 am grössten:
    A=1+2+7+34=44\lVert A \rVert_\infty = |1| + |2| + |7| + |-34| = 44
  3. Schritt 3: Spaltensummennorm
    Beträge je Spalte summieren, Maximum nehmen.
    Bei derselben Matrix ist Spalte 4 am grössten:
    A1=34+3+4+7=48\lVert A \rVert_1 = |-34| + |-3| + |-4| + |-7| = 48
Notation Notation: Matrixnormen
A2\lVert A\rVert_2 Spektralnorm, A1\lVert A\rVert_1 max. Spaltensummennorm, A\lVert A\rVert_\infty max. Zeilensummennorm.
Notation Notation: μ
μmax,μmin\mu_{\max}, \mu_{\min} sind der grösste bzw. kleinste Eigenwert von ATAA^{\mathsf{T}} A (stets reell, 0\geq 0).
Merke 1 vs ∞
A1\lVert A\rVert_1: Spaltensumme (die 11 steht senkrecht). A\lVert A\rVert_\infty: Zeilensumme (das \infty liegt waagrecht).
Querverweis Die Eigenwerte von ATAA^{\mathsf{T}} A sind die Quadrate der Singulärwerte; die Spektralnorm ist der grösste Singulärwert. Mehr dazu in Kapitel 9 (Singulärwertzerlegung).

6.3.4 Hauptachsentransformation quadratischer Formen

Frage: Ein Ausdruck wie q(x)=x12+4x1x2+3x22q(\mathbf{x}) = x_1^2 + 4x_1 x_2 + 3x_2^2 hat einen lästigen gemischten Term x1x2x_1 x_2. Solange er da ist, sieht man der Form nicht an, was sie geometrisch beschreibt. Kann man ihn loswerden? Ja, durch eine geschickte Drehung des Koordinatensystems, die Hauptachsentransformation. Anschaulich: Man dreht das Achsenkreuz so, dass es sich an die natürlichen Achsen der Form anlegt; dann verschwinden die Mischterme von selbst.

Zuerst der Rahmen. Eine quadratische Form ordnet jedem Vektor x\mathbf{x} die Zahl qA(x)=xTAxq_A(\mathbf{x}) = \mathbf{x}^{\mathsf{T}} A \mathbf{x} zu, mit einer symmetrischen Matrix AA. Ausgeschrieben ist das i,jaijxixj\sum_{i,j} a_{ij} x_i x_j: die Diagonaleinträge liefern die reinen Quadrate xi2x_i^2, die Aussereinträge die gemischten Terme. Dass AA symmetrisch gewählt wird, ist kein Zufall; nur dann greift der Spektralsatz und wir können orthogonal diagonalisieren.

!!
Quadratische Form
qA(x)=x,Ax=xTAx=i,j=1naijxixj,A=AT\begin{aligned} q_A(\mathbf{x}) &= \langle \mathbf{x}, A\mathbf{x} \rangle = \mathbf{x}^{\mathsf{T}} A \mathbf{x} \\ &= \sum_{i,j=1}^{n} a_{ij}\, x_i\, x_j, \qquad A = A^{\mathsf{T}} \end{aligned}
Diagonale von A: reine Quadrate. Aussereinträge: gemischte Terme.
Ablesen von A aus einer 2D-Form
xTAx=ax12+2bx1x2+cx22    A=(abbc)\mathbf{x}^{\mathsf{T}} A \mathbf{x} = a\,x_1^2 + 2b\,x_1 x_2 + c\,x_2^2 \;\Longrightarrow\; A = \begin{pmatrix} a & b \\ b & c \end{pmatrix}
Halbe des gemischten Koeffizienten auf beide Nebendiagonal-Plätze.

Eine Vorbemerkung zur verwendeten Drehung: Ist QQ eine orthogonale Matrix, so haben alle ihre Eigenwerte Betrag λ=1|\lambda| = 1, und Eigenvektoren zu verschiedenen Eigenwerten stehen senkrecht. Das passt genau zur Hauptachsentransformation, denn dort drehen wir mit einem orthogonalen TT, das Längen erhält. Das Kochrezept lautet:

Kochrezept: Hauptachsentransformation

  1. Schritt 1: Eigenwertproblem lösen
    Die Eigenrichtungen von AA sind genau die Hauptachsen, in denen die Form rein quadratisch wird.
    Bestimme Eigenwerte und Eigenvektoren der symmetrischen Matrix AA.
  2. Schritt 2: T orthonormalisieren
    Damit die Transformation eine reine Drehung ist (Längen erhalten, T1=TTT^{-1} = T^{\mathsf{T}}).
    Eigenvektoren normieren, bei mehrfachen Eigenwerten ggf. Gram-Schmidt. Dann gilt
    TTAT=DT^{\mathsf{T}} A T = D
  3. Schritt 3: Koordinaten wechseln
    In die Hauptachsen-Koordinaten y\mathbf{y} übergehen.
    Setze y=TTx\mathbf{y} = T^{\mathsf{T}} \mathbf{x}, also x=Ty\mathbf{x} = T\mathbf{y}:
    y=TTx,x=Ty\mathbf{y} = T^{\mathsf{T}} \mathbf{x}, \qquad \mathbf{x} = T\mathbf{y}
  4. Schritt 4: in die Form einsetzen
    xTAx=(Ty)TA(Ty)=yT(TTAT)y=yTDy\mathbf{x}^{\mathsf{T}} A \mathbf{x} = (T\mathbf{y})^{\mathsf{T}} A (T\mathbf{y}) = \mathbf{y}^{\mathsf{T}} (T^{\mathsf{T}} A T)\mathbf{y} = \mathbf{y}^{\mathsf{T}} D \mathbf{y}.
    Übrig bleibt eine Summe reiner Quadrate, die Normalform ohne gemischte Terme:
    qA(x)=xTAx=yTDy=i=1ndiyi2q_A(\mathbf{x}) = \mathbf{x}^{\mathsf{T}} A \mathbf{x} = \mathbf{y}^{\mathsf{T}} D \mathbf{y} = \sum_{i=1}^{n} d_i\, y_i^2

Beispiel: Mischterm wegdrehen

  1. Schritt 1: A aus q ablesen
    Reine Quadrate auf die Diagonale, halber Mischterm auf die Nebendiagonale.
    Für q(x)=12x12+3x1x212x22q(\mathbf{x}) = \tfrac{1}{2}x_1^2 + \sqrt{3}\,x_1 x_2 - \tfrac{1}{2}x_2^2 ist
    A=12(1331)A = \frac{1}{2}\begin{pmatrix} 1 & \sqrt{3} \\ \sqrt{3} & -1 \end{pmatrix}
  2. Schritt 2: Eigenwerte
    det(AλI)\det(A - \lambda I).
    PA(λ)=λ21=(λ1)(λ+1)    λ1=1,  λ2=1P_A(\lambda) = \lambda^2 - 1 = (\lambda - 1)(\lambda + 1) \;\Rightarrow\; \lambda_1 = 1,\; \lambda_2 = -1
  3. Schritt 3: Eigenvektoren, normiert
    Sie stehen bereits senkrecht (symmetrisches AA), nur normieren.
    E1=span ⁣{(31)}E1=span ⁣{(13)}Normierung 12\begin{aligned} E_{1} &= \operatorname{span}\!\left\{ \begin{pmatrix} \sqrt{3} \\ 1 \end{pmatrix} \right\} \\[4pt] E_{-1} &= \operatorname{span}\!\left\{ \begin{pmatrix} 1 \\ -\sqrt{3} \end{pmatrix} \right\} \\[4pt] &\quad \text{Normierung } \tfrac{1}{2} \end{aligned}
  4. Schritt 4: T und Normalform
    TT orthogonal aus den normierten Eigenvektoren; einsetzen liefert yTDy\mathbf{y}^{\mathsf{T}} D \mathbf{y}.
    Mit T=12(3113)T = \tfrac{1}{2}\begin{pmatrix} \sqrt{3} & 1 \\ 1 & -\sqrt{3} \end{pmatrix} erhält man die Normalform
    q(y)=y12y22q(\mathbf{y}) = y_1^2 - y_2^2
Notation Notation: qA(x)q_A(\mathbf{x})
qA(x)=xTAxq_A(\mathbf{x}) = \mathbf{x}^{\mathsf{T}} A \mathbf{x}, die quadratische Form zur symmetrischen Matrix AA. ,\langle\cdot,\cdot\rangle ist das Standardskalarprodukt.
Definition Normalform
Gestalt idiyi2\sum_i d_i y_i^2 ohne gemischte Terme. Man erreicht sie durch die Hauptachsentransformation.
Formel Schlüsselformel
qA(x)=yTDy=idiyi2q_A(\mathbf{x}) = \mathbf{y}^{\mathsf{T}} D \mathbf{y} = \sum_i d_i y_i^2
Nach der Drehung y=TTx\mathbf{y} = T^{\mathsf{T}}\mathbf{x} erscheinen die Eigenwerte als Koeffizienten.
Merke Achtung
AA immer symmetrisch wählen: halben gemischten Koeffizienten auf beide Nebendiagonal-Plätze.
Querverweis Das Skalarprodukt stammt aus Kapitel 4 (Vektorräume). Quadratische Formen treten in Analysis bei der Klassifikation von Extrema auf (Hesse-Matrix, siehe 6.3.6).

6.3.5 Kegelschnitte

Frage: Eine Gleichung wie xTAx+aTx+b=0\mathbf{x}^{\mathsf{T}} A \mathbf{x} + \mathbf{a}^{\mathsf{T}} \mathbf{x} + b = 0 beschreibt eine Kurve in der Ebene. Aber welche, eine Ellipse, eine Hyperbel, eine Parabel? Auf den ersten Blick sieht man es einem wilden Ausdruck mit gemischten und linearen Termen nicht an. Die Antwort liefert die Kombination aus Hauptachsentransformation und Verschiebung.

Die Analogie steckt schon im Namen: Ein Kegelschnitt ist das, was entsteht, wenn man einen Doppelkegel mit einer Ebene schneidet. Je nach Neigung der Ebene bekommt man einen Kreis, eine Ellipse, eine Parabel oder eine Hyperbel. Genau diese wenigen Standardkurven sind alle möglichen Lösungsmengen. Allgemein heisst die Lösungsmenge Q={xRn:xTAx+aTx+b=0}Q = \{\mathbf{x} \in \mathbb{R}^n : \mathbf{x}^{\mathsf{T}} A \mathbf{x} + \mathbf{a}^{\mathsf{T}} \mathbf{x} + b = 0\} ein Kegelschnitt bzw. (höherdimensional) eine Quadrik.

!!
Kegelschnitt / Quadrik
Q={xRn  :  xTAx+aTx+b=0},aRn,  bR\begin{aligned} Q = \left\{\, \mathbf{x} \in \mathbb{R}^n \;:\; \mathbf{x}^{\mathsf{T}} A \mathbf{x} + \mathbf{a}^{\mathsf{T}} \mathbf{x} + b = 0 \,\right\}, \\ \mathbf{a} \in \mathbb{R}^n,\; b \in \mathbb{R} \end{aligned}
Quadratischer Teil xTAx\mathbf{x}^{\mathsf{T}} A\mathbf{x}, linearer Teil aTx\mathbf{a}^{\mathsf{T}}\mathbf{x}, konstanter Teil bb.

Das Vorgehen hat zwei Phasen, und die Reihenfolge ist entscheidend. Erst die Hauptachsentransformation (Drehung, beseitigt den gemischten Term im quadratischen Teil), dann die Translation (Verschiebung durch quadratisches Ergänzen, beseitigt den linearen Term). Am Ende steht eine Normalform, die man direkt mit einer kleinen Tabelle als Kurventyp identifiziert. Welche Tabelle gilt, hängt vom Rang von AA ab.

Normalform Kurventyp
x2cy=0x^2 - c\,y = 0 Parabel
x2a2=0x^2 - a^2 = 0 zwei parallele Geraden
x2+a2=0x^2 + a^2 = 0 leere Menge
Normalformen bei Rang(A) = 1 (eine der beiden Achsen fehlt im quadratischen Teil)
Normalform Kurventyp
x2a2+y2b21=0\dfrac{x^2}{a^2} + \dfrac{y^2}{b^2} - 1 = 0 Ellipse / Kreis
x2a2y2b21=0\dfrac{x^2}{a^2} - \dfrac{y^2}{b^2} - 1 = 0 Hyperbel
x2a2+y2b2+1=0\dfrac{x^2}{a^2} + \dfrac{y^2}{b^2} + 1 = 0 leere Menge
x2b2y2=0x^2 - b^2 y^2 = 0 zwei sich schneidende Geraden
x2+b2y2=0x^2 + b^2 y^2 = 0 ein Punkt
Normalformen bei Rang(A) = 2 (beide Achsen im quadratischen Teil)

Beispiel: vom Mischterm zur Ellipse

  1. Schritt 1: A ablesen
    Reine Quadrate auf die Diagonale, halber Mischterm auf die Nebendiagonale.
    Für q(x)=6x124x1x2+3x22q(\mathbf{x}) = 6x_1^2 - 4x_1 x_2 + 3x_2^2 ist
    A=(6223),a=(48)A = \begin{pmatrix} 6 & -2 \\ -2 & 3 \end{pmatrix}, \qquad \mathbf{a} = \begin{pmatrix} 4 \\ 8 \end{pmatrix}
  2. Schritt 2: Eigenwerte
    det(AλI)\det(A - \lambda I).
    PA(λ)=λ29λ+14=(λ2)(λ7)    λ1=2,  λ2=7P_A(\lambda) = \lambda^2 - 9\lambda + 14 = (\lambda - 2)(\lambda - 7) \;\Rightarrow\; \lambda_1 = 2,\; \lambda_2 = 7
  3. Schritt 3: Eigenvektoren, normiert
    Senkrecht (symmetrisch), nur normieren mit 15\tfrac{1}{\sqrt{5}}.
    E2=span ⁣{(12)}E7=span ⁣{(21)}T=15(1221)\begin{aligned} E_{2} &= \operatorname{span}\!\left\{ \begin{pmatrix} 1 \\ 2 \end{pmatrix} \right\} \\[4pt] E_{7} &= \operatorname{span}\!\left\{ \begin{pmatrix} -2 \\ 1 \end{pmatrix} \right\} \\[4pt] T &= \frac{1}{\sqrt{5}}\begin{pmatrix} 1 & -2 \\ 2 & 1 \end{pmatrix} \end{aligned}
  4. Schritt 4: drehen und einsetzen
    x=Ty\mathbf{x} = T\mathbf{y} in q(x)+aTxq(\mathbf{x}) + \mathbf{a}^{\mathsf{T}}\mathbf{x} einsetzen; der quadratische Teil wird rein, ein linearer Term in y1y_1 bleibt.
    Es ergibt sich
    2y12+7y22+205y1=02 y_1^2 + 7 y_2^2 + \frac{20}{\sqrt{5}}\, y_1 = 0
  5. Schritt 5: quadratisch ergänzen, Translation
    Den linearen y1y_1-Term durch Verschieben beseitigen.
    Mit z=y+(50)\mathbf{z} = \mathbf{y} + \begin{pmatrix} \sqrt{5} \\ 0 \end{pmatrix} wird daraus die Normalform
    z125+7z2210=1\frac{z_1^2}{5} + \frac{7 z_2^2}{10} = 1
  6. Schritt 6: Kurventyp bestimmen
    Rang A=2A = 2, Form z12a2+z22b2=1\tfrac{z_1^2}{a^2} + \tfrac{z_2^2}{b^2} = 1, also die obere Tabelle.
    Es ist eine Ellipse mit den Halbachsen 5\sqrt{5} und 10/7\sqrt{10/7}.
Definition Kegelschnitt / Quadrik
Lösungsmenge von xTAx+aTx+b=0\mathbf{x}^{\mathsf{T}} A\mathbf{x} + \mathbf{a}^{\mathsf{T}}\mathbf{x} + b = 0. In der Ebene: Ellipse, Hyperbel, Parabel und Entartungen.
Notation Notation: a, b, Halbachsen
aRn\mathbf{a} \in \mathbb{R}^n linearer, bRb \in \mathbb{R} konstanter Koeffizient. In der Normalform sind a,ba, b die Halbachsen.
Formel Normalform Ellipse
z12a2+z22b2=1\frac{z_1^2}{a^2} + \frac{z_2^2}{b^2} = 1
Standardgestalt einer Ellipse mit Halbachsen aa und bb nach Drehung und Translation.
Merke Reihenfolge
Zuerst drehen (Hauptachsen), dann verschieben (Translation, quadratisches Ergänzen). Nicht umgekehrt.
Querverweis Der Rang einer Matrix stammt aus Kapitel 1 und 4. Die Drehung ist die Hauptachsentransformation aus Abschnitt 6.3.4.

6.3.6 Lokale Extrema

Frage: Eine Funktion mehrerer Variablen hat an einer Stelle gradf=0\operatorname{grad} f = \mathbf{0}, also eine waagrechte Tangentialebene. Ist das ein Minimum (eine Talsohle), ein Maximum (ein Gipfel) oder ein Sattelpunkt (in einer Richtung hoch, in einer anderen runter, wie ein Bergpass)? Der Gradient allein verrät es nicht; man muss die Krümmung in alle Richtungen anschauen. Genau hier kommen Eigenwerte ins Spiel.

Die Krümmungsinformation steckt in der Hesse-Matrix, der Matrix aller zweiten partiellen Ableitungen. Sie ist symmetrisch (Satz von Schwarz: die Reihenfolge des Ableitens ist egal), also greift der Spektralsatz. Ihre Eigenwerte sagen, wie sich die Funktion in den Hauptkrümmungsrichtungen verhält: lauter positive Eigenwerte heisst „in jede Richtung nach oben gekrümmt", also eine Talsohle.

Um das Vorzeichenmuster der Eigenwerte kompakt zu fassen, definiert man die Signatur einer symmetrischen Matrix als Tripel (p,n,z)(p, n, z): pp ist die Anzahl der positiven Eigenwerte, nn die Anzahl der negativen, und zz die algebraische Vielfachheit des Eigenwerts 00.

!!
Signatur einer symmetrischen Matrix
Signatur(A)=(p,n,z)\operatorname{Signatur}(A) = (p,\, n,\, z)
p = Anzahl positiver EW, n = Anzahl negativer EW, z = algebraische Vielfachheit von λ = 0.

Mit der quadratischen Form qA(x)=xTAxq_A(\mathbf{x}) = \mathbf{x}^{\mathsf{T}} A \mathbf{x} lassen sich symmetrische Matrizen nach ihrem Vorzeichenverhalten einteilen. Diese Definitheit ist genau das, was über Minimum, Maximum oder Sattel entscheidet:

Definitheit Bedingung an qA(x)q_A(\mathbf{x}) Eigenwerte
positiv definit qA(x)>0q_A(\mathbf{x}) > 0 für alle x0\mathbf{x} \neq \mathbf{0} alle λi>0\lambda_i > 0
negativ definit qA(x)<0q_A(\mathbf{x}) < 0 für alle x0\mathbf{x} \neq \mathbf{0} alle λi<0\lambda_i < 0
positiv semidefinit qA(x)0q_A(\mathbf{x}) \geq 0 für alle x\mathbf{x} alle λi0\lambda_i \geq 0
negativ semidefinit qA(x)0q_A(\mathbf{x}) \leq 0 für alle x\mathbf{x} alle λi0\lambda_i \leq 0
indefinit qAq_A nimmt positive und negative Werte an positive und negative λi\lambda_i
Definitheit der quadratischen Form und Vorzeichen der Eigenwerte (für symmetrisches A)

Es gibt auch einen Weg, die Definitheit zu prüfen, ohne die Eigenwerte auszurechnen: das Hurwitz-Kriterium. Man bildet die führenden Hauptminoren, das sind die Determinanten der linken oberen i×ii \times i-Teilmatrizen für i=1,,ni = 1, \ldots, n. Sind sie alle echt positiv, ist AA positiv definit. Wechseln sie streng das Vorzeichen (für ungerades ii negativ, für gerades ii positiv), ist AA negativ definit. Erfüllen die Hauptminoren keines dieser Muster, hilft das Kriterium nicht direkt, und man bestimmt die Definitheit über die Eigenwerte.

!!
Hurwitz-Kriterium (positiv definit)
A=AT positiv definit    det ⁣(a11a1iai1aii)>0fu¨r alle iA = A^{\mathsf{T}} \text{ positiv definit} \;\Longleftrightarrow\; \det\!\begin{pmatrix} a_{11} & \cdots & a_{1i} \\ \vdots & \ddots & \vdots \\ a_{i1} & \cdots & a_{ii} \end{pmatrix} > 0 \quad \text{für alle } i
Alle führenden Hauptminoren > 0. Alternierende Vorzeichen (ungerade i < 0, gerade i > 0): negativ definit.

Damit das vollständige Kochrezept für lokale Extrema einer Funktion f:RnRf: \mathbb{R}^n \to \mathbb{R}:

Kochrezept: lokale Extrema klassifizieren

  1. Schritt 1: kritische Punkte finden
    Ein Extremum oder Sattel kann nur dort liegen, wo die Tangentialebene waagrecht ist.
    Löse gradf(a)=0\operatorname{grad} f(\mathbf{a}) = \mathbf{0} nach den kritischen Punkten a\mathbf{a}:
    gradf(a)=0\operatorname{grad} f(\mathbf{a}) = \mathbf{0}
  2. Schritt 2: Hesse-Matrix aufstellen
    Sie enthält die Krümmung in alle Richtungen, ausgewertet im kritischen Punkt.
    Bilde die Matrix der zweiten partiellen Ableitungen:
    Hf(a)=(2f(a)xixj)i,jH_f(\mathbf{a}) = \left( \frac{\partial^2 f(\mathbf{a})}{\partial x_i\, \partial x_j} \right)_{i,j}
  3. Schritt 3: Definitheit bestimmen und entscheiden
    Vorzeichen der Eigenwerte (oder Hurwitz) klassifizieren den Punkt.
    (I) Hf(a)H_f(\mathbf{a}) positiv definit \Rightarrow lokales Minimum. (II) negativ definit \Rightarrow lokales Maximum. (III) indefinit \Rightarrow Sattelpunkt.

Beispiel: Signatur und Hesse-Matrix

  1. Schritt 1: Signatur einer 2×2-Matrix
    Wir zählen die Vorzeichen der Eigenwerte.
    Für A=(1110)A = \begin{pmatrix} 1 & 1 \\ 1 & 0 \end{pmatrix} ist PA(λ)=λ2λ1=0P_A(\lambda) = \lambda^2 - \lambda - 1 = 0, also λ1,2=1±52\lambda_{1,2} = \tfrac{1 \pm \sqrt{5}}{2}. Ein Eigenwert ist positiv, einer negativ:
    Signatur(A)=(1,1,0)\operatorname{Signatur}(A) = (1,\, 1,\, 0)
  2. Schritt 2: erste Ableitungen einer Funktion
    Für die Hesse-Matrix brauchen wir zunächst den Gradienten.
    Für f(x,y)=12x+5x312y+3x2y+3xy2+5y3f(x,y) = -12x + 5x^3 - 12y + 3x^2 y + 3xy^2 + 5y^3:
    fx=12+15x2+6xy+3y2fy=12+3x2+6xy+15y2\begin{aligned} \frac{\partial f}{\partial x} &= -12 + 15x^2 + 6xy + 3y^2 \\ \frac{\partial f}{\partial y} &= -12 + 3x^2 + 6xy + 15y^2 \end{aligned}
  3. Schritt 3: zweite Ableitungen
    Sie sind die Einträge der Hesse-Matrix.
    2fx2=30x+6y2fxy=6x+6y2fy2=6x+30y\begin{aligned} \frac{\partial^2 f}{\partial x^2} &= 30x + 6y \\ \frac{\partial^2 f}{\partial x\, \partial y} &= 6x + 6y \\ \frac{\partial^2 f}{\partial y^2} &= 6x + 30y \end{aligned}
  4. Schritt 4: Hesse-Matrix
    Die gemischten zweiten Ableitungen sind gleich (Satz von Schwarz), also ist HfH_f symmetrisch.
    Hf=(30x+6y6x+6y6x+6y6x+30y)H_f = \begin{pmatrix} 30x + 6y & 6x + 6y \\ 6x + 6y & 6x + 30y \end{pmatrix}
Definition Signatur (p, n, z)
pp = Anzahl positiver Eigenwerte, nn = Anzahl negativer Eigenwerte (nicht die Dimension!), zz = algebraische Vielfachheit von λ=0\lambda = 0.
Definition Hesse-Matrix
Hf(a)=(2f(a)/xixj)i,jH_f(\mathbf{a}) = \big(\partial^2 f(\mathbf{a}) / \partial x_i \partial x_j\big)_{i,j}, die symmetrische Matrix der zweiten partiellen Ableitungen.
Notation Notation: grad f
gradf\operatorname{grad} f ist der Gradient (Vektor der ersten partiellen Ableitungen). gradf(a)=0\operatorname{grad} f(\mathbf{a}) = \mathbf{0} markiert einen kritischen Punkt.
Formel Klassifikation
Hf pos. definitMinneg. definitMaxindefinitSattel\begin{aligned} H_f \text{ pos. definit} &\Rightarrow \text{Min} \\ \text{neg. definit} &\Rightarrow \text{Max} \\ \text{indefinit} &\Rightarrow \text{Sattel} \end{aligned}
Über die Definitheit der Hesse-Matrix im kritischen Punkt.
Querverweis Die führenden Hauptminoren (Determinanten von Teilmatrizen) stammen aus Kapitel 3. Diese Seite liefert die in Analysis IV.5 auf „ein späteres Kapitel" vertagte Klassifikation kritischer Punkte über die Hesse-Matrix.

Aufgaben mit Musterlösungen

Die Aufgaben zu diesem Kapitel folgen in Kürze.

Die Aufgaben für dieses Kapitel werden in einer zukünftigen Version ergänzt.

MerkeErst selbst rechnen, dann Lösung prüfen!