4.1 Problemstellung
In der Praxis hat man häufig auch ein überbestimmtes lineares Gleichungssystem für eine Matrix mit und eine rechte Seite zu „lösen“. Da ein solches System mehr Gleichungen als Unbekannte hat, ist im Allgemeinen für alle und besitzt es somit keine exakte Lösung. Es macht also Sinn, ein als „Lösung“ zu akzeptieren, für welches der Defekt hinsichtlich einer gewählten -Norm auf dem minimal wird, also eine Lösung des Problems
Im Fall der Verwendung der - bzw. Euklidischen Norm lautet dieses Problem
- (4.1)
welches im Hinblick auf eine Lösung mit dem Problem
- (4.2)
äquivalent ist, wobei die zu minimierende Funktion in (4.2) für alle differenzierbar ist. (Die Funktionen in (4.1) und (4.2) haben offenbar dieselben Minimalpunkte , sofern solche existieren.) Bei Wahl der -Norm minimiert man also die Summe der Fehlerquadrate, und man spricht daher auch von Fehlerquadratmethode oder von diskreter -Approximation. Die Lösung des entsprechenden Problems für die - und die - bzw. Tschebyscheff-Norm ist ebenfalls von großem praktischen Interesse, führt aber auf nichtdifferenzierbare Funktionen, so dass diese Probleme schwieriger zu lösen sind. (Man kann letztere Probleme als lineare Optimierungsprobleme formulieren und beispielsweise mit dem sog. Simplexalgorithmus lösen.) Bevor wir nun das Problem in (4.2) weiter untersuchen, wollen wir zunächst zwei Aufgabenstellungen beschreiben und analysieren, die auf ein derartiges über-bestimmtes Gleichungssystem führen.
In Naturwissenschaft und Technik hat man oft das Problem, mit einer großen Zahl von Messwerten umgehen zu müssen. Ein anderes, sich häufig stellendes Problem ist es, eine in endlich vielen Punkten gegebene Funktion, welche durch eine rechenaufwändige Vorschrift bestimmt ist, durch eine einfacher zu berechnende zu ersetzen. Beide Probleme kann man gemeinsam angehen und als -Approximationsprobleme beschreiben.
Wir gehen dazu von Zahlenpaaren
- (4.3)
mit für aus, wobei üblicherweise groß ist. Beispielsweise können die irgendwelche zu unterschiedlichen Zeitpunkten gemessene Werte oder, im Hinblick auf die Approximation einer gegebenen Funktion , die Funktionswerte zu gewissen Punkten des Definitionsbereichs von sein. Das Ziel der Ausgleichsrechnung ist es nun, durch geeignete Wahl eines Parametervektors eine Funktion der Gestalt
- (4.4)
mit gegebenen stetigen Ansatzfunktionen zu finden, so dass die Fehler
- (4.5)
möglichst klein ausfallen. Dabei sollte sinnvollerweise sein und ist zumeist . Hat man einen solchen Parametervektor bzw. eine solche Funktion gefunden und sind die Approximationsfehler in (4.5) nicht zu groß, so kann man statt mit den Daten (4.3) nur mit dieser Funktion arbeiten, für die im Fall erheblich weniger Information, nämlich nur der Vektor , abgespeichert werden muss. Weil eine stetige Funktion ist, erlaubt ein solches Vorgehen außerdem, Werte zu Werten bzw. „Zeiten“ zu berechnen, für die keine Messung vorliegt.
Die Ansatzfunktionen hat man so zu wählen, dass sie den gemessenen Prozess möglichst gut beschreiben. Häufig, insbesondere dann, wenn man wenig über den gegebenen Prozess weiß, verwendet man die Monome
- (4.6)
so dass
ein Polynom vom Grad ist (Polynomapproximation). Wenn es sich um einen periodischen Prozess handelt, ist es aber beispielsweise günstiger, die Funktionen
- (4.7)
als Ansatzfunktionen zu wählen (trigonometrische Approximation), weil man dann im Allgemeinen bei gleicher Anzahl von Funktionen kleinere Fehler erhält. Andere Systeme von Ansatzfunktionen können ebenfalls vernünftig sein.
Nun ist es nicht sinnvoll, so zu wählen, dass die Summe aller Fehler
möglichst klein wird, da diese Summe auch bei großen Einzelfehlern sehr klein werden kann, nämlich dann, wenn sich die positiven und negativen Fehler (nahezu) aufheben. Die Größe des Fehlervektors misst man daher mit einer -Norm im . Insbesondere führt dann die Verwendung der quadrierten - bzw. Euklidischen Norm (siehe den Kommentar zu (4.1) und (4.2)) auf die für alle differenzierbare Funktion
Mit den Setzungen
- (4.8)
kann diese geschrieben werden als
Das beschriebene Problem der Ausgleichsrechnung ist also von der Form (4.2), wobei und durch (4.8) gegeben sind.
Wir betrachten nun allgemein das Problem (4.2). Die zu minimierende Funktion
können wir wegen
als quadratische Funktion in Veränderlichen
- (4.9)
schreiben. Für die darin vorkommende Matrix kann man aussagen:
Lemma 4.1
- Sei mit und . Dann ist die Matrix positiv definit.
Beweis.
Die Matrix ist wegen symmetrisch. Weiter ist sie positiv semidefinit, d. h. es gilt
Wegen sind die Spalten von linear unabhängig (Zeilenrang = Spaltenrang) und daher hat man
q.e.d.
Im Fall der Ausgleichsrechnung mit den Ansatzfunktionen (4.6) und (4.7) ist die Rangbedingung in Lemma 4.1 unter unserer Voraussetzung immer erfüllt, wie das folgende Lemma besagt.
Lemma 4.2
- Für die mit den Ansatzfunktionen (4.6) oder (4.7) gebildete Matrix in (4.8) mit gilt .
Beweis.
Für in (4.8) und gilt:
Wird insbesondere durch (4.6) spezifiziert, so implizieren wegen letztere Gleichungen die Identität , da ein von Null verschiedenes Polynom vom Grad höchstens Nullstellen besitzt. Für (4.7) schließt man analog mittels komplexer Darstellungen des Sinus und Kosinus (siehe z. B. Collatz/Krabs: Approximationstheorie, Teubner, Stuttgart, 1973).
q.e.d.
4.2 Lösung der Normalgleichungen
Wir betrachten nun die quadratische Funktion in (4.9), wobei wir voraussetzen. Sie hat bei den Gradienten und die Hessematrix
Notwendige Bedingung dafür, dass Minimalpunkt von ist, ist die Bedingung bzw. äquivalent dazu, dass die sog. Normalgleichungen
erfüllt. Nach Lemma 4.1 ist dabei die (von unabhängige) Matrix positiv definit, so dass die eindeutige Lösung der Normalgleichungen auch der einzige (globale) Minimalpunkt von ist. Wir können somit festhalten:
Satz 4.3
- Sei mit und . Dann besitzt das lineare Ausgleichsproblem
- eine eindeutige Lösung und diese ist eindeutige Lösung des linearen Gleichungssystems
- (4.10)
Wir betrachten dazu ein Beispiel der Ausgleichsrechnung.
Beispiel 4.4
Wir betrachten den Fall der sog. Ausgleichsgeraden. Wenn die mit in (4.3) ungefähr auf einer Geraden liegen, macht es Sinn,
d. h. die Ansatzfunktionen (4.6) mit zu wählen und somit
zu setzen. Mit
hat in diesem Fall die Gestalt . Weiter ist dann
Für eine symmetrische invertierbare Matrix kann man die Inverse explizit angeben:
Somit lautet die Lösung der Normalgleichungen (4.10) in diesem Fall
und demzufolge
- (4.11)
Dabei hat man
- (4.12)
Beispielsweise für die Wertepaare
errechnet man
Mit (4.11) und (4.12) ergibt sich somit
Die Ausgleichsgerade zu den gegebenen Daten lautet folglich
Der maximale relative Fehler der bezüglich der beträgt
bzw. ungefähr 1.6%.
Für könnte man die Normalgleichungen (4.10) mittels einer Cholesky-Zerlegung lösen. Diese selbst ist, wie man zeigen kann, numerisch stabil. Leider ist das Ausgleichproblem selbst aber häufig schlecht konditioniert. Man betrachte z. B. die Matrix , die sog. Vandermonde-Matrix, die man für im Fall der Wahl der Monome (4.6) als Ansatzfunktionen erhält:
Für unterscheiden sich die Funktionen und bereits für nicht allzu großes kaum, so dass die -te und -te Spalten in für solche nahezu linear abhängig sind. Die oft große Kondition von geht außerdem noch im Fall bei der Lösung der Normalgleichungen quadratisch ein, denn es gilt:
Lemma 4.5
- Für eine reguläre Matrix gilt
Beweis.
Nach Satz 3.19 hat eine positiv definite Matrix Eigenwerte . Weiter hat wegen
für Eigenvektoren zu die Inverse , die somit auch positiv definit ist, die Eigenwerte . Es gilt folglich nach Satz 2.15
wobei und einen größten und kleinsten Eigenwert von bezeichnen. Indem man mittels einer Orthonormalbasis von Eigenvektoren darstellt, kann man ferner die Abschätzungen
beweisen, wobei offenbar Gleichheit in der ersten bzw. zweiten Ungleichung für einen zu bzw. gehörenden Eigenvektor angenommen wird. Folglich schließt man
Wendet man diese Ergebnisse auf die nach Lemma 4.1 positiv definite Matrix an, so erhält man mit Satz 2.19
q.e.d.
Es ist daher große Vorsicht bei Anwendung der Cholesky-Zerlegung für die Lösung der Normalgleichungen geboten. Prinzipiell ist sie nur zu empfehlen, wenn große Residuen in der Lösung des Ausgleichsproblems zu erwarten sind (s. Deuflhard/Hohmann). Sicherer ist es aber, so vorzugehen, wie es im folgenden Abschnitt beschrieben ist.
4.3 Lösung mittels QS-Zerlegung
Für eine QS-Zerlegung stellen wir zunächst fest:
Lemma 4.6
- Sei mit und gegeben und eine Zerlegung von , wobei eine orthogonale und eine Matrix der folgenden Gestalt ist (vgl. (3.39)):
- (4.13)
- Dann gilt:
- (i) ,
- (ii) .
Beweis.
Da eine orthogonale Matrix ist, gilt
Wegen ist nach Lemma 4.1 insbesondere
also (i) richtig. Weiter hat man
Wendet man nun Lemma 4.5 auf die nach Lemma 4.1 positiv definite Matrix an, so gelangt man zu (ii).
q.e.d.
Der folgende Satz gibt an, wie Fehlerquadratprobleme mittels einer QS-Zerlegung von gelöst werden können.
Satz 4.7
- Es seien mit und , eine orthogonale Matrix und gegeben wie in Lemma 4.6. Weiter sei der Vektor dargestellt in der Form
- Dann ist der Vektor genau dann die eindeutige Lösung des linearen Ausgleichsproblems
- wenn eindeutige die Lösung des Systems
- ist. Außerdem hat man
Beweis.
Für einen beliebigen Vektor erhalten wir unter Verwendung von (3.38) und Lemma 3.23
Daraus folgt
sowie
Damit ist alles gezeigt.
q.e.d.
Nach Satz 4.3 und Lemma 4.6 besitzen das -Approximationsproblem sowie das System eine eindeutige Lösung. Wir geben zum letzten Satz ein Beispiel.
Beispiel 4.8
Wir betrachten das Fehlerquadratproblem mit den Daten
Nach Beispiel 3.32 liefert eine QS-Zerlegung von mit gleichzeitiger Berechnung von
Die Lösung von bzw.
lautet
Der zugehörige Approximationsfehler in der Euklidischen Norm ist gegeben durch
Wir wollen nun die beiden beschriebenen Lösungswege für das -Problem, die Lösung der Normalgleichungen mittels Cholesky-Zerlegung und die Lösung über den in Satz 4.7 dargestellten Weg, vergleichen. In beiden Fällen muss die rechte Seite des Systems von links mit einer Matrix multipliziert werden. Weiter sind bei der Cholesky-Zerlegung zwei und bei dem Weg über die QS-Zerlegung ein gestaffeltes lineares Gleichungssystem zu lösen. (Da die Lösung eines solchen Systems nur etwa Multiplikationen und Divisionen erfordert, vernachlässigen wir hier diesen zusätzlichen Aufwand bei der Cholesky-Zerlegung.) Im Fall der Lösung der Normalgleichungen benötigt man ferner zur Berechnung der symmetrischen Matrix etwa und für die Cholesky-Zerlegung etwa wesentliche Rechenoperationen. Daneben erfordert die Berechnung des Residuenvektors weitere Multiplikationen, so dass die zuletzt genannten Teilaufgaben zusammen ungefähr
wesentliche Rechenoperationen erfordern, das sind
- (4.14) für und für .
Für das sich aus Satz 4.7 ergebende Vorgehen benötigt man über die Matrix-Vektor-Multiplikation und die Lösung eines Dreieckssystems hinaus nur die Berechnung der QS-Zerlegung von . Wie ein Vergleich von (3.55) und (4.14) liefert, müssen demnach für beide Wege im Fall etwa gleich viele wesentliche Rechenoperationen durchgeführt werden, während der Weg über die QS-Zerlegung für etwa doppelt so viele wesentliche Rechenoperationen erfordert wie der über die Normalgleichungen. Letzterem Nachteil der QS-Zerlegung steht jedoch entgegen, dass bei ihr nach Lemma 4.6 die Konditionszahl bzw. für quadratisches (vgl. Satz 4.5) die Zahl den Rundungsfehlereinfluss bei der Lösung des Dreieckssystems bestimmt, während dies bei dem Weg über die Normalgleichungen die Zahl ist. Wir geben dazu ein (allerdings etwas extremes) Beispiel:
Beispiel 4.9
Es sei und mit einem gegeben durch
Damit ergibt sich
Es seien nun und die Basis und Mantissenlänge des verwendeten Computers, so dass die zugehörige Maschinengenauigkeit ist. Weiter sei und damit . Dann erhält man
- mit .
Die Matrix hat offenbar den Rang 1 und ist singulär. Man errechnet hier