Statystyka Definicje > Wieloliniowość
Co to jest wieloliniowość?
Wieloliniowość może negatywnie wpłynąć na wyniki regresji.
Wieloliniowość występuje zazwyczaj, gdy istnieją wysokie korelacje między dwiema lub więcej zmiennymi predykcyjnymi. Innymi słowy, jedna zmienna predykcyjna może być używana do przewidywania drugiej. Tworzy to nadmiarowe informacje, wykrzywiając wyniki w modelu regresji. Przykładami skorelowanych zmiennych predykcyjnych (zwanych również predyktorami wieloliniowymi) są: wzrost i waga osoby, wiek i cena sprzedaży samochodu lub lata edukacji i roczny dochód.
Łatwym sposobem na wykrycie nieliniowości jest obliczenie współczynników korelacji dla wszystkich par zmiennych prognozujących. Jeżeli współczynnik korelacji, r, wynosi dokładnie +1 lub -1, jest to nazywane doskonałą wieloliniowością. Jeśli r jest bliskie lub dokładnie -1 lub +1, jedna ze zmiennych powinna zostać usunięta z modelu, jeśli jest to w ogóle możliwe.
Wieloliniowość częściej pojawia się w badaniach obserwacyjnych, rzadziej w danych eksperymentalnych. Kiedy ten warunek jest obecny, może skutkować niestabilnymi i niewiarygodnymi oszacowaniami regresji. Kilka innych problemów może przeszkadzać w analizie wyników, w tym:
- Statystyka t będzie generalnie bardzo mała, a przedziały ufności współczynników będą bardzo szerokie. Oznacza to, że trudniej jest odrzucić hipotezę zerową.
- Częściowy współczynnik regresji może być nieprecyzyjnym oszacowaniem; błędy standardowe mogą być bardzo duże.
- Częściowe współczynniki regresji mogą mieć znak i/lub zmiany wielkości, gdy przechodzą z próbki do próbki.
- Multikoliniowość utrudnia ocenę wpływu zmiennych niezależnych na zmienne zależne.
Co Powoduje Wieloliniowość?
Dwa typy to:
- Wieloliniowość oparta na danych: spowodowana źle zaprojektowanymi eksperymentami, danymi, które są w 100% obserwacyjne lub metodami zbierania danych, którymi nie można manipulować. W niektórych przypadkach zmienne mogą być silnie skorelowane (zwykle z powodu zbierania danych z badań czysto obserwacyjnych) i nie ma w tym żadnego błędu po stronie badacza. Z tego powodu należy prowadzić eksperymenty, gdy tylko jest to możliwe, ustalając poziom zmiennych predykcyjnych z wyprzedzeniem.
- Wieloliniowość strukturalna: spowodowana przez Ciebie, badacza, tworzącego nowe zmienne predykcyjne.
Przyczyny nieliniowości mogą również obejmować:
- Niewystarczającą ilość danych. W niektórych przypadkach zebranie większej ilości danych może rozwiązać ten problem.
- Zmienne dummy mogą być nieprawidłowo użyte. Na przykład, badacz może nie wykluczyć jednej kategorii lub dodać zmienną dummy dla każdej kategorii (np. wiosna, lato, jesień, zima).
- Włączenie do regresji zmiennej, która w rzeczywistości jest kombinacją dwóch innych zmiennych. Na przykład, włączenie „całkowitego dochodu z inwestycji”, gdy całkowity dochód z inwestycji = dochód z akcji i obligacji + dochód z odsetek od oszczędności.
- Włączenie dwóch identycznych (lub prawie identycznych) zmiennych. Na przykład, waga w funtach i waga w kilogramach, lub dochód z inwestycji i dochód z oszczędności/obligacji.
Następnie: Współczynniki inflacji wariancji.
Beyer, W. H. CRC Standard Mathematical Tables, 31st ed. Boca Raton, FL: CRC Press, s. 536 i 571, 2002.
Dodge, Y. (2008). The Concise Encyclopedia of Statistics. Springer.
Klein, G. (2013). Kreskówkowe wprowadzenie do statystyki. Hill & Wamg.
Vogt, W.P. (2005). Dictionary of Statistics & Methodology: A Nontechnical Guide for the Social Sciences. SAGE.
Stephanie Glen. „Multicollinearity: Definition, Causes, Examples” From StatisticsHowTo.com: Elementarne statystyki dla reszty z nas! https://www.statisticshowto.com/multicollinearity/
——————————————————————————
Potrzebujesz pomocy z zadaniem domowym lub pytaniem testowym? Dzięki Chegg Study możesz uzyskać rozwiązania krok po kroku na swoje pytania od eksperta w danej dziedzinie. Pierwsze 30 minut z korepetytorem Chegg jest bezpłatne!
Komentarze? Chcesz zamieścić poprawkę? Prosimy o zamieszczenie komentarza na naszej stronie na Facebooku.