Articles

Wat is autocorrelatie?

Posted on

Autocorrelatie is een eigenschap van gegevens die de mate van gelijkenis tussen de waarden van dezelfde variabelen over opeenvolgende tijdsintervallen weergeeft. In dit artikel wordt uitgelegd wat autocorrelatie is, welke soorten autocorrelatie er zijn – positieve en negatieve autocorrelatie, en hoe je autocorrelatie kunt vaststellen en testen.

Wanneer je een reeks getallen hebt, en er is een zodanig patroon dat waarden in de reeks kunnen worden voorspeld op basis van voorgaande waarden in de reeks, dan wordt gezegd dat de reeks getallen autocorrelatie vertoont. Dit wordt ook wel seriële correlatie en seriële afhankelijkheid genoemd. Het bestaan van autocorrelatie in de residuen van een model is een teken dat het model ondeugdelijk kan zijn. Autocorrelatie wordt vastgesteld met behulp van een correlogram (ACF-plot) en kan worden getest met de Durbin-Watson-test.

Het autogedeelte van autocorrelatie komt van het Griekse woord voor zelf, en autocorrelatie betekent gegevens die met zichzelf gecorreleerd zijn, in tegenstelling tot gegevens die met andere gegevens gecorreleerd zijn. Beschouw de negen waarden van Y hieronder. De kolom rechts toont de laatste acht van deze waarden, één rij “opgeschoven”, met de eerste waarde geschrapt. Wanneer wij deze twee gegevenskolommen correleren, zonder de laatste waarneming met ontbrekende waarden, bedraagt de correlatie 0,64. Dit betekent dat de gegevens met zichzelf gecorreleerd zijn (d.w.z, we hebben autocorrelatie/seriële correlatie).

Positieve en negatieve autocorrelatie

Het bovenstaande voorbeeld vertoont positieve eerste-orde autocorrelatie, waarbij eerste-orde aangeeft dat waarnemingen die één van elkaar verwijderd zijn, gecorreleerd zijn, en positief betekent dat de correlatie tussen de waarnemingen positief is. Wanneer gegevens met positieve eerste-orde-correlatie worden uitgezet, verschijnen de punten in een vloeiende slangvormige curve, zoals links. Bij negatieve eerste-orde-correlatie vormen de punten een zigzagpatroon als ze met elkaar verbonden zijn, zoals rechts.

Positieve en negatieve autocorrelatie

Positieve en negatieve autocorrelatie

Diagnosticeren van autocorrelatie met behulp van een correlogram

Een correlogram toont de correlatie van een reeks gegevens met zichzelf; Het is ook bekend als een autocorrelatieplot en een ACF-plot. Het correlogram is voor de hierboven getoonde gegevens. De vertraging verwijst naar de volgorde van de correlatie. We kunnen in deze plot zien dat bij lag 0 de correlatie 1 is, aangezien de gegevens met zichzelf gecorreleerd zijn. Bij een vertraging van 1 is de correlatie ongeveer 0,5 (dit is anders dan de hierboven berekende correlatie, aangezien in het correlogram een iets andere formule wordt gebruikt). We kunnen ook zien dat we negatieve correlaties hebben wanneer de punten 3, 4, en 5 uit elkaar liggen.

Diagnosticeren van autocorrelatie met behulp van een correlogram

Diagnosticeren van autocorrelatie met behulp van een correlogram

Testen op autocorrelatie

Sampling error alone means that we will typically see some autocorrelation in any data set, Er is dus een statistische test nodig om uit te sluiten dat de autocorrelatie door een steekproeffout wordt veroorzaakt. De standaardtest hiervoor is de Durbin-Watson test. Deze test test alleen expliciet de eerste-orde correlatie, maar in de praktijk detecteert hij meestal de meest voorkomende vormen van autocorrelatie, omdat de meeste vormen van autocorrelatie een zekere mate van eerste-orde correlatie vertonen.

De implicaties van autocorrelatie

Wanneer autocorrelatie wordt gevonden in de residuen van een model, suggereert dit dat het model verkeerd gespecificeerd is (d.w.z. in zekere zin verkeerd). Een oorzaak is dat een of meer belangrijke variabelen in het model ontbreken. Wanneer de gegevens over ruimte of tijd zijn verzameld, en het model daar niet expliciet rekening mee houdt, is autocorrelatie waarschijnlijk. Als bijvoorbeeld een weermodel in één voorstad verkeerd is, zal het in een naburige voorstad waarschijnlijk op dezelfde manier verkeerd zijn. De oplossing is om ofwel de ontbrekende variabelen op te nemen, of de autocorrelatie expliciet te modelleren (bijvoorbeeld met een ARIMA-model).

Het bestaan van autocorrelatie betekent dat berekende standaardfouten, en dus p-waarden, misleidend zijn.

Teken in voor Displayr

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *