- Tytuł:
-
Model selection in linear regression
Problem selekcji zmiennych w regresji liniowej - Autorzy:
- Gruszowska, Natalia
- Opis:
-
Regresja liniowa daje możliwość jednoczesnej analizy wielu zmiennych niezależnych. Pojawia się zatem problem wyboru modelu najlepiej dopasowanego. Pytanie "Które zmienne są ważne?" jest prawdopodobnie tak stare jak modelowanie. W zbyt dużym modelu istnieje możliwość zagubienia ważnych informacji. Za mały może nie uwzględnić tych cech, które w wiarygodny sposób opisują badane zjawisko. Jak wiadomo o jakości modelu nie decyduje ilość zmiennych objaśniających, ale ich jakość. W wyborze zmiennych konieczna jest wiedza i doświadczenie dotyczące badanego zjawiska. Nie ma jednej prostej reguły statystycznej, pozwalającej zdecydować o ilości niezbędnych zmiennych w modelu. Kryteria informacyjne są jednym ze sposobów wyboru najbardziej odpowiedniego podzbioru zmiennych. Są one często porównywane za pomocą badań symulacyjnych. Jednak bardzo trudno jest ocenić subtelne różnice pomiędzy wynikami wydajności, nie ma jednego kryterium selekcji, które daje zawsze najlepsze rezultaty. Każde z kryteriów lepiej sprawdza się w innych typach modeli. W pracy przedstawiono takie kryteria jak: AIC, AICc bazujące na informacji Kullbacka – Leiblera, BIC oparte na wnioskowaniu Bayesa, FPE szacujące średni błąd predykcji, oraz kryterium Cp i HQ. Poza współczynnikami dopasowania i kryteriami informacyjnymi w celu wyboru modelu najlepszego można stosować także inne podejścia, np. metodę Hellwiga, przy której to spotykamy się z terminem pojemności informacji. W jeszcze innym podejściu do tematu selekcji zmiennych wykorzystuje się algorytmy uczące do oceny modeli z różnymi podzbiorami zmiennych. Przedstawiona w pracy metoda LARS iteracyjnie estymuje współczynniki regresji liniowej. W każdym kroku algorytmu kolejne funkcje składowe zwiększają dopasowanie modelu, stosując regresję aktualnych reszt, a następnie włączają do modelu następną zmienną objaśniającą. Wybór najlepszego z p zaproponowanych przez algorytm modeli następuje za pomocą funkcji oceny. Celem pracy jest przedstawienie i porównanie wyżej opisanych metod do rozwiązania problemu selekcji zmiennych w regresji liniowej.
Linear regression can be applied to simultaneously analyze multiple independent variables. There is, therefore, the problem of selecting the optimal model. Information criteria are one way to choose the most appropriate subset of variables. This paper presents criteria such as AIC, AICC based on Kullback-Leibler information, BIC based on Bayesian inference, FPE estimate the average prediction error, and the criterion Cp and HQ.In order to select the best model other approaches could be applied, such as Hellwig method or learning algorithms to evaluate models with different subsets of variables, such as LARS. The LARS method iteratively estimates linear regression coefficients. In each step of the algorithm, one variable is added to the model. Selecting the best of the p models proposed by the LARS is achieved by using the information criterion.The aim of this study is to present and compare the above-mentioned methods to solve the problem of variable selection in linear regression. - Dostawca treści:
- Repozytorium Uniwersytetu Jagiellońskiego
Inne