Loading AI tools
technika statystycza Z Wikipedii, wolnej encyklopedii
Metoda zmiennych instrumentalnych – quasi-eksperymentalna technika statystycznej analizy danych we wnioskowaniu przyczynowym, która pozwala na przeciwdziałanie błędom estymacji wprowadzanym przez zmienne zakłócające, dzięki temu że pomocniczo wykorzystuje zmienność zewnętrznych czynników wolnych od ich wpływu – tzw. zmiennych instrumentalnych[1][2].
Bezpośredni związek przyczynowy zmiennej objaśniającej i objaśnianej może być trudny do wyodrębnienia, jeśli w modelu przyczynowym zjawiska obecne są skorelowane z nimi obiema zmienne zakłócające. Obserwowana współzmienność (korelacja) może być w skrajnych przypadkach wręcz zupełnie „pozorna” – to znaczy, może istnieć naprawdę, ale wynikać w całości z przyczynowego wpływu zmiennych zakłócających, a nie postulowanej zmiennej objaśniającej. Jest to charakterystyczny przykład tzw. problemu pominiętych zmiennych[1][2][3].
Prawidłowo wybrana zmienna instrumentalna jest silnie związana ze zmienną objaśniającą, ale niezależna od zmiennych zakłócających. Pozwala dzięki temu na zidentyfikowanie i odizolowanie tej części współzmienności badanych czynników, która jest warunkowo niezależna od zakłóceń. Omija konieczność realizowania – nie zawsze możliwego z powodów praktycznych lub etycznych – randomizowanego eksperymentu kontrolnego. Stosowne zmienne instrumentalne mogą także pomóc w analizie danych z eksperymentów, w których doszło do nielosowego wykruszania się uczestników[1][2].
Przegląd historii techniki dokonany przez Angrista i Kruegera przypisał jej pierwsze zastosowanie i matematyczny opis Phillipowi i Sewallowi Wrightowi w latach 1920 w pracy dla Brookings Institution (ówcz. Institute of Economics) poświęconej oszacowaniu elastyczności podaży i popytu produktów rolniczych. Nazwę narzędzia wprowadził w 1945 statystyk Olav Reiersøl[2]. Pearl uznaje jednak za wcześniejsze użycie i interesujący przykład metody pochodzące z ok. 1854 analizy lekarza Johna Snowa dotyczące epidemii cholery w Londynie[3].
W czasie epidemii cholery w 1854 mechanizmy odpowiedzialne za szerzenie się chorób były jeszcze bardzo słabo znane. Popularna pozostawała teoria miazmy, doszukująca się przyczyn większości zaraz w morowym powietrzu. Choć w przypadku niektórych patogenów przewidywania i zalecenia płynące z tej teorii okazywały się skuteczne, cholera przenosi się głównie przez zanieczyszczoną wodę pitną, i wymaga zupełnie innych interwencji. Powierzchowna analiza danych nie ułatwiała jednak dostrzeżenia prawdziwych zależności, bo chorobie tej faktycznie towarzyszyła często zaduch i bieda[3][4].
Snow zauważył, że choć nie jest w stanie bezpośrednio powiązać ognisk cholery z jakością wody (a tym bardziej w sposób, który jednoznacznie odróżniałby ją od jakości powietrza), to może spróbować zidentyfikować rożne kategorie jakości wody poprzez porównanie firm wodociągowych. Odkrył dzięki temu, że konkurujące ze sobą firmy dostarczają wodę do większości dzielnic miasta – niezależnie od „jakości powietrza”, biedy, i innych postulowanych alternatywnych wyjaśnień – i jedna z nich jest szczególnie związana z występowaniem cholery. Okazało się, że jej ujęcie wody leży w niewielkiej odległości w dół Tamizy od dużego odpływu ścieków miejskich[3][4].
W standardowej regresji liniowej metodą najmniejszych kwadratów (ang. OLS), jeśli to macierz obserwacji zmiennych objaśniających, a to wektor błędu oszacowania, estymator efektu[1][2]:
jest nieobciążony i odpowiada asymptotycznie prawdziwemu efektowi przyczynowemu tylko jeśli spełniony jest szereg założeń – między innymi o braku korelacji i (tj. o braku systematycznego efektu zmiennych zakłócających)[1].
Aby uzyskać mniej obciążoną wartość parametru technika zmiennych instrumentalnych wprowadza dodatkową macierz obserwacji instrumentów (IV), które są wysoce skorelowane z ale nie z
O ile korelacja instrumentu i błędu jest rzeczywiście zerowa, a wymiary macierzy i pozwalają na pełną wzajemną identyfikację, to estymator zmiennych instrumentalnych i hipotetyczny parametr są asymptotycznie równe:
Możliwe są także warianty, w których liczba instrumentów jest mniejsza lub większa od liczby zmiennych objaśniających, oraz nieparametryczne wersje metody.
W przypadku słabej identyfikacji instrumentów czy heterogeniczności efektów precyzja uzyskanego oszacowania może być niska, i nie uprawniać do generalizacji na populacje różne od występujących w badaniu[1][5].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.