Um eine (Zeit-)Datenreihe zu analysieren, gehen wir davon aus, dass sie als Trend plus Rauschen dargestellt werden kann:
y t = a t + b + e t {\displaystyle y_{t}=at+b+e_{t}\,}
wobei a {\displaystyle a}
und b {\displaystyle b}
unbekannte Konstanten sind und das e {\displaystyle e}
’s sind zufällig verteilte Fehler. Wenn man die Nullhypothese, dass die Fehler nicht-stationär sind, verwerfen kann, dann wird die nicht-stationäre Reihe {yt } als trend-stationär bezeichnet. Bei der Methode der kleinsten Quadrate wird angenommen, dass die Fehler unabhängig und normalverteilt sind. Wenn dies nicht der Fall ist, können Hypothesentests über die unbekannten Parameter a und b ungenau sein. Am einfachsten ist es, wenn die e {\displaystyle e}
’s alle die gleiche Verteilung haben, aber wenn das nicht der Fall ist (wenn einige eine höhere Varianz haben, was bedeutet, dass diese Datenpunkte effektiv weniger sicher sind), dann kann dies während der Anpassung nach der Methode der kleinsten Quadrate berücksichtigt werden, indem jeder Punkt mit dem Kehrwert der Varianz dieses Punktes gewichtet wird.
In den meisten Fällen, in denen nur eine einzige zu analysierende Zeitreihe existiert, wird die Varianz der e {\displaystyle e}
’s wird durch Anpassung eines Trends geschätzt, um die geschätzten Parameterwerte a ^ {\displaystyle {\hat {a}}}
und b ^ , {\displaystyle {\hat {b}},}
, so dass die vorhergesagten Werte y ^ = a ^ t + b ^ {\displaystyle {\hat {y}}={\hat {a}}t+{\hat {b}}}
von den Daten y t {\displaystyle y_{t}} abgezogen werden}
(und damit die Daten enttrimmt) und die Residuen e ^ t {\displaystyle {\hat {e}}_{t}}
als die detrendierten Daten zu belassen, und die Varianz der e t {\displaystyle e_{t}}
aus den Residuen – dies ist oft die einzige Möglichkeit, die Varianz der e t {\displaystyle e_{t}} zu schätzen
’s.
Sobald wir das „Rauschen“ der Reihe kennen, können wir die Signifikanz des Trends beurteilen, indem wir die Nullhypothese aufstellen, dass der Trend, a {\displaystyle a}
, nicht von 0 verschieden ist. Aus der obigen Diskussion über Trends in Zufallsdaten mit bekannter Varianz kennen wir die Verteilung der berechneten Trends, die von zufälligen (trendlosen) Daten zu erwarten sind. Wenn der geschätzte Trend, a ^ {\displaystyle {\hat {a}}
, größer ist als der kritische Wert für ein bestimmtes Signifikanzniveau, dann wird der geschätzte Trend bei diesem Signifikanzniveau als signifikant verschieden von Null angesehen und die Nullhypothese eines zugrunde liegenden Trends von Null wird verworfen.
Die Verwendung einer linearen Trendlinie ist in die Kritik geraten, was zu einer Suche nach alternativen Ansätzen geführt hat, um ihre Verwendung bei der Modellschätzung zu vermeiden. Einer der alternativen Ansätze beinhaltet Einheitswurzeltests und die Kointegrationstechnik in ökonometrischen Studien.
Der geschätzte Koeffizient, der mit einer linearen Trendvariable wie der Zeit verbunden ist, wird als ein Maß für die Auswirkung einer Anzahl von unbekannten oder bekannten, aber nicht messbaren Faktoren auf die abhängige Variable über eine Zeiteinheit interpretiert. Streng genommen ist diese Interpretation nur für den Zeitrahmen der Schätzung gültig. Außerhalb dieses Zeitrahmens weiß man nicht, wie sich diese nicht messbaren Faktoren sowohl qualitativ als auch quantitativ verhalten. Darüber hinaus wirft die Linearität des Zeittrends viele Fragen auf:
(i) Warum sollte er linear sein?
(ii) Wenn der Trend nichtlinear ist, unter welchen Bedingungen beeinflusst seine Einbeziehung die Größe sowie die statistische Signifikanz der Schätzungen anderer Parameter im Modell?
(iii) Schließt die Einbeziehung eines linearen Zeittrends in ein Modell das Vorhandensein von Schwankungen in den Tendenzen der abhängigen Variable über die Zeit per Annahme aus; ist dies in einem bestimmten Kontext notwendigerweise gültig?
(iv) Und besteht eine unechte Beziehung im Modell, weil eine zugrunde liegende ursächliche Variable selbst zeittrendig ist?
Forschungsergebnisse von Mathematikern, Statistikern, Ökonometrikern und Ökonomen sind als Antwort auf diese Fragen veröffentlicht worden. Ausführliche Anmerkungen zur Bedeutung von linearen Zeittrends in Regressionsmodellen finden sich beispielsweise in Cameron (2005); Granger, Engle und viele andere Ökonometriker haben über Stationarität, Einheitswurzeltests, Kointegration und verwandte Themen geschrieben (eine Zusammenfassung einiger Arbeiten auf diesem Gebiet findet sich in einem Informationspapier der Königlich Schwedischen Akademie der Wissenschaften (2003); und Ho-Trieu & Tucker (1990) haben über logarithmische Zeittrends geschrieben, mit Ergebnissen, die zeigen, dass lineare Zeittrends Spezialfälle von Zyklen sind.
Beispiel: verrauschte ZeitreihenBearbeiten
Es ist schwieriger, einen Trend in einer verrauschten Zeitreihe zu sehen. Wenn zum Beispiel die wahre Reihe 0, 1, 2, 3 ist, alle plus etwas unabhängiges normalverteiltes „Rauschen“ e mit der Standardabweichung E, und wir haben eine Stichprobenreihe der Länge 50, dann wird bei E = 0,1 der Trend offensichtlich sein; bei E = 100 wird der Trend wahrscheinlich sichtbar sein; aber bei E = 10000 wird der Trend unter dem Rauschen begraben sein.
Betrachten wir ein konkretes Beispiel, die Aufzeichnung der globalen Oberflächentemperatur der letzten 140 Jahre, wie sie vom IPCC präsentiert wird: dann beträgt die interannuelle Variation etwa 0,2 °C und der Trend etwa 0,6 °C über 140 Jahre, mit 95%-Konfidenzgrenzen von 0,2 °C (zufällig etwa der gleiche Wert wie die interannuelle Variation). Der Trend ist also statistisch von 0 verschieden. Wie jedoch an anderer Stelle angemerkt, entspricht diese Zeitreihe nicht den Annahmen, die für die Gültigkeit der kleinsten Quadrate notwendig sind.