Uczenie maszynowe poprawia szacowanie skutków przyczynowych w nieciągłych funkcjach regresji (RDD)

Finansowany ze środków UE projekt zaowocował rozszerzeniem zakresu narzędzi metodologicznych dla osób badających nieciągłe funkcje regresji dzięki wykorzystaniu nowoczesnych technik uczenia maszynowego.

Badania podstawowe

Nieocenione narzędzie metodologiczne do badania związków przyczynowo-skutkowych, jakim jest nieciągła funkcja regresji (ang. regression disconuity design, RDD), odgrywa ogromną rolę w coraz większej liczbie programów badawczych. Aby jeszcze bardziej udoskonalić technikę RDD i sprawić, by analizy z jej wykorzystaniem stały się bardziej dokładne, w ramach projektu RD-ADVANCE zbadano i opracowano nowe metody, które mają być stosowane w badaniach wykorzystujących te funkcje oceny. „Technika RDD pozwala badaczom zdobyć wiedzę o związkach przyczynowych w określonych warunkach, w których nie można wykonać badań randomizowanych z grupą kontrolną i gdzie konieczne jest zamiast tego wykorzystanie danych z obserwacji", wyjaśnia Christoph Rothe, profesor ekonomii i koordynator projektu RD-ADVANCE. „Nowo opracowane metody pozwolą badaczom z dziedzin takich jak ekonomia, edukacja i zdrowie publiczne na lepsze ilościowe określenie wpływu przyczynowego różnych działań z zakresu polityki", dodaje Rothe.

Opracowanie nowych metod na potrzeby RDD

Projekt RD-ADVANCE, koordynowany przez niemiecki Uniwersytet w Mannheim, został podzielony na trzy części w celu oceny różnych elementów RDD. W pierwszej części członkowie zespołu opracowali metody włączania zmiennych towarzyszących – zmiennych niezależnych, które mogą wpływać na wynik danego badania statystycznego, do analizy nieciągłych funkcji regresji. Prace zostały przeprowadzone z pomocą sztucznej inteligencji, która umożliwiła dojście do bardziej precyzyjnych wniosków. „Dokładniej mówiąc, zastosowano uczenie maszynowe do wyodrębnienia informacji z potencjalnie dużej liczby zmiennych towarzyszących, które zostały następnie wykorzystane do zmniejszenia wariancji szacunków nieciągłości regresji skutków przyczynowych”, zauważa Rothe. Badacz twierdzi też, że dzięki rozszerzonym technikom naukowcy będą w stanie zmniejszyć niepewność wynikającą z ograniczonych danych, a tym samym zapewnić lepsze doradztwo w zakresie polityk. W drugiej części projektu zespół badał stosowane powszechnie w analizie statystycznej przedziały ufności (CI). Opierają się one na błędach standardowych pogrupowanych według określonej zmiennej, zwanej zmienną bieżącą. Celem tych wspólnych przedziałów ufności jest ilościowe określenie niepewności związanej z badanymi efektami leczenia. Naukowcy odkryli jednak, że w przypadku ciągłej lub dyskretnej zmiennej te powszechnie stosowane przedziały ufności mogą niedokładnie odzwierciedlać rzeczywistą niepewność związaną z szacowanymi efektami leczenia. Aby rozwiązać ten problem i opracować bardziej rzetelne i niezawodne podejście, zespół projektowy opracował dwa nowe przedziały ufności, które mogą pomóc w dokonywaniu dokładniejszych ocen skutków przyczynowych.

Gwarancja dokładności

Podejście RDD opiera się na wykorzystaniu dwóch grup – grupy leczonej, która otrzymuje lek lub bierze udział w zabiegu, a także grupy kontrolnej. Uczestnicy są grupowani na podstawie punktu odcięcia zmiennej bieżącej. Porównanie wyników po obu stronach punktu odcięcia pomaga w wyciągnięciu wniosków na temat przyczynowych skutków leczenia. Jednak w przypadku wykorzystania metody RDD istnieje ryzyko, że poszczególne osoby mogą celowo dostosowywać pewne aspekty siebie lub zmieniać swoje zachowanie, aby wpłynąć na to, do której grupy zostaną przypisane. To zjawisko może podważyć wiarygodność i zasadność stosowania podejścia RDD. Aby rozwiązać ten potencjalny problem i zapewnić dokładność analizy RDD, trzecia część projektu została poświęcona opracowaniu metod szacowania i wnioskowania, które pozwoliłyby uwzględnić manipulację w badaniach opartych na metodyce RDD. Zespół ustanowił szerokie ramy prac nad kwestią manipulacji, wykorzystując nieparametryczne metody statystyczne i jednocześnie uwzględniając dodatkowe aspekty scenariuszy takich sytuacji. Szczegółowe informacje na temat opracowanych metod można znaleźć w trzech publikacjach dostępnych na stronie przedstawiającej zbiór wyników projektu.

Słowa kluczowe

RD-ADVANCE, nieciągłe funkcje regresji, skutki przyczynowe, sztuczna inteligencja, ekonomia, dane obserwacyjne, uczenie maszynowe, doradztwo w zakresie polityki