Articles

Lineaire trendschatting

Posted on

Om een (tijd)reeks gegevens te analyseren, nemen we aan dat deze kan worden voorgesteld als trend plus ruis:

y t = a t + b + e t {displaystyle y_{t}=at+b+e_{t},}

y_{t}=at+b+e_{t},

waarbij a {{t}

a

en b {{t}

b

onbekende constanten zijn en de e {{t}}

e

’s zijn willekeurig verdeelde fouten. Indien men de nulhypothese dat de fouten niet-stationair zijn kan verwerpen, dan wordt de niet-stationaire reeks {yt } trend-stationair genoemd. De kleinste kwadratenmethode gaat ervan uit dat de fouten onafhankelijk verdeeld zijn met een normale verdeling. Indien dit niet het geval is, kunnen hypothesetests over de onbekende parameters a en b onnauwkeurig zijn. Het is het eenvoudigst als de e {Displaystyle e}

e

’s allemaal dezelfde verdeling hebben, maar als dat niet het geval is (als sommige een hogere variantie hebben, wat betekent dat die gegevenspunten effectief minder zeker zijn), kan daarmee rekening worden gehouden bij de kleinste kwadratenaanpassing, door elk punt te wegen met de inverse van de variantie van dat punt.

In de meeste gevallen, wanneer er slechts één tijdreeks bestaat die moet worden geanalyseerd, is de variantie van de e {{{displaystyle e}}

e

’s geschat door een trend te passen om de geschatte parameterwaarden a ^ {\displaystyle {a}} te verkrijgen

{\hat {a}}

en b ^ , {\displaystyle {\hat {b}},}

{\displaystyle {{\hat {b}}},}

waardoor de voorspelde waarden y ^ = a ^ t + b ^ {{\displaystyle {\hat {y}}={\hat {a}}t+{\hat {b}}}

{\displaystyle {{\hat {y}}={\hat {a}}t+{\hat {b}}

af te trekken van de gegevens y t {{\displaystyle y_{t}}}

y_{t}

(waardoor de gegevens worden gedetrend) en de residuen e ^ t {\displaystyle {e}}_{t}} overblijven.

{\displaystyle {e}}_{t}}

als de getrendeerde gegevens, en de schatting van de variantie van de e t {\displaystyle e_{t}}

e_t

’s uit de residuen – dit is vaak de enige manier om de variantie van de e t {\displaystyle e_{t}}

e_t

’s te schatten.

Als we eenmaal de “ruis” van de reeks kennen, kunnen we de significantie van de trend beoordelen door de nulhypothese te stellen dat de trend, a {displaystyle a}

a

, niet verschilt van 0. Uit de bovenstaande bespreking van trends in willekeurige gegevens met bekende variantie, kennen we de verdeling van berekende trends die uit willekeurige (trendloze) gegevens te verwachten zijn. Als de geschatte trend, a ^ {\displaystyle {{a}}

{\hat {a}}

, groter is dan de kritische waarde voor een bepaald significantieniveau, dan wordt de geschatte trend geacht significant van nul te verschillen op dat significantieniveau, en wordt de nulhypothese van nul onderliggende trend verworpen.

Het gebruik van een lineaire trendlijn is onderwerp geweest van kritiek, hetgeen heeft geleid tot een zoektocht naar alternatieve benaderingen om het gebruik ervan bij de modelschatting te vermijden. Een van de alternatieve benaderingen betreft eenheidsworteltoetsen en de coin integratietechniek in econometrische studies.

De geschatte coëfficiënt die samenhangt met een lineaire trendvariabele zoals tijd wordt geïnterpreteerd als een maatstaf voor de invloed van een aantal onbekende of bekende maar onmeetbare factoren op de afhankelijke variabele gedurende één tijdseenheid. Strikt genomen geldt deze interpretatie alleen voor het tijdsbestek van de schatting. Buiten dat tijdsbestek weet men niet hoe die onmeetbare factoren zich zowel kwalitatief als kwantitatief gedragen. Bovendien roept de lineariteit van de tijdstrend veel vragen op:

(i) Waarom zou die lineair moeten zijn?

(ii) Als de trend niet-lineair is, onder welke voorwaarden beïnvloedt de opname ervan dan zowel de grootte als de statistische significantie van de schattingen van andere parameters in het model?

(iii) De opneming van een lineaire tijdstrend in een model sluit bij voorbaat de aanwezigheid uit van fluctuaties in de tendensen van de afhankelijke variabele in de tijd; geldt dit noodzakelijkerwijs in een bepaalde context?

(iv) En, bestaat er een onechte relatie in het model omdat een onderliggende oorzakelijke variabele zelf tijdtrend is?

Er zijn onderzoeksresultaten van wiskundigen, statistici, econometristen en economen gepubliceerd in antwoord op deze vragen. Zo wordt in Cameron (2005) uitvoerig ingegaan op de betekenis van lineaire tijdtendensen in regressiemodellen; Granger, Engle en vele andere econometristen hebben geschreven over stationariteit, eenworteltoetsen, co-integratie en aanverwante vraagstukken (een samenvatting van enkele werken op dit gebied is te vinden in een informatiedocument van de Koninklijke Zweedse Academie van Wetenschappen (2003); en Ho-Trieu & Tucker (1990) hebben geschreven over logaritmische tijdstrends met resultaten die erop wijzen dat lineaire tijdstrends speciale gevallen van cycli zijn.

Voorbeeld: ruisende tijdreeksenEdit

Het is moeilijker om een trend te zien in een ruisende tijdreeks. Bijvoorbeeld, als de echte reeks 0, 1, 2, 3 is plus een onafhankelijke normaal verdeelde “ruis” e met standaardafwijking E, en we hebben een steekproefreeks van lengte 50, dan zal als E = 0,1 de trend duidelijk zijn; als E = 100 zal de trend waarschijnlijk zichtbaar zijn; maar als E = 10000 zal de trend in de ruis worden begraven.

Als we naar een concreet voorbeeld kijken, de gegevens over de mondiale oppervlaktetemperatuur van de afgelopen 140 jaar zoals die door het IPCC zijn gepresenteerd: dan is de variatie tussen de jaren ongeveer 0,2 °C en de trend ongeveer 0,6 °C over 140 jaar, met 95%-betrouwbaarheidsgrenzen van 0,2 °C (toevallig ongeveer dezelfde waarde als de variatie tussen de jaren). De trend is dus statistisch verschillend van 0. Zoals elders opgemerkt voldoet deze tijdreeks echter niet aan de aannames die nodig zijn om de kleinste kwadraten geldig te laten zijn.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *