Badanie
istotności parametrów regresji
Oceny standardowych
błędów estymatorów parametrów regresji.
W procesie sprawdzania istotności poszczególnych
parametrów regresji ważna rolę spełniają tzw. oceny standardowych błędów estymatorów parametrów regresji
. Będziemy je oznaczać odpowiednio
.
W przypadku, gdy wykorzystujemy
zapis macierzowy oblicza się je ze wzorów:
,
gdzie
·
jest standardowym
błędem,
·
jest i-tym diagonalnym elementem macierzy
.
Często wyniki obliczeń zapisuje
się w postaci
.
Jeżeli oceny
są "małe" w porównaniu z
wartościami estymatorów
, to można się spodziewać, że model regresyjny jest
zadawalający. Dokładniej co oznacza słowo "małe",
sprecyzujemy w dalszej części tego wykładu, omawiając przedziały ufności i
testy istotności dla parametrów regresji.
Przykład (Inflacja) (kontynuacja przykładu 6.1). W
szczególnym przypadku
oceny standardowych
błędów estymatorów parametrów regresji wyznacza się ze wzorów:
,
.
W
rozważanym przykładzie mamy
,
,
i
.
Zatem
,
.
Wyniki
obliczeń zapisujemy w postaci
.
Przykład (Reklama).(kontynuacja przykładu 6.2).
Z
wydruku
|
|
Współczynniki |
Błąd standardowy |
|
Przecięcie |
47,16494227 |
2,470414433 |
|
x1 |
1,599040336 |
0,280963057 |
|
x2 |
1,148747938 |
0,30524885 |
odczytujemy
,
,
.
Oszacowany
model regresji zapisujemy w postaci
.
Przedziały ufności
dla parametrów regresji.
Przedziałem ufności dla parametru regresji
, gdzie
, nazywamy przedział liczbowy, o którym przypuszczamy, że
mieści się w nim nieznany parametr
. Z przedziałem tym związana jest miara ufności (pewności)
równa prawdopodobieństwu, że przedział rzeczywiście zawiera interesujący nas
parametr, zwana poziomem ufności. Zwykle przyjmuje się poziom ufności
lub
. Dla ustalonego poziomu ufności
wyznaczony przedział
nazywamy
przedziałem ufności.
przedział ufności dla
parametru regresji
, wyznaczamy korzystając ze wzoru:
,
gdzie
·
n jest liczbą obserwacji,
·
k jest liczbą zmiennych
objaśniających,
·
jest przyjętym
poziomem ufności,
·
jest estymatorem
parametru regresji
,
·
jest oszacowaniem
błędu estymatora
,
·
jest wielkością
odczytywaną z tablic krytycznych wartości rozkładu t (rozkładu t-Studenta).
Przykład wyznaczania wartości krytycznej.
Przyjmijmy,
że konstruujemy 90 % przedział ufności, gdy do dyspozycji mamy
obserwacji, a związek
regresyjny ma
zmienne objaśniające.
Zatem
![]()
oraz
liczba stopni swobody wynosi
.
Korzystamy
z tablic
|
Liczba stopni
swobody |
|
|
... |
|
|
1 |
|
|
|
|
|
2 |
|
|
|
|
|
. |
|
|
|
|
|
13 |
|
1,771 |
|
|
|
. |
|
|
|
|
|
120 |
|
|
|
|
|
|
|
|
|
|
i odczytujemy
.
Przykład (Inflacja) (kontynuacja). Podamy 99 %
przedział ufności dla parametru
i 95 % przedział
ufności dla parametru
.
a) 99 % przedział ufności dla parametru ![]()
Dla
i liczby stopni
swobody
, z tablic odczytujemy
. Poprzednio obliczyliśmy
i
. Ostatecznie
,
i
szukany przedział ufności jest postaci
![]()
Podsumowując,
przedział
zawiera prawdziwą
wartość parametru
z prawdopodobieństwem
0,99.
b) 95 % przedział ufności dla parametru ![]()
Dla
i liczby stopni
swobody
, z tablic odczytujemy
. Poprzednio obliczyliśmy
i
. Ostatecznie
,
i
szukany przedział ufności jest postaci
![]()
Podsumowując,
przedział
zawiera prawdziwą
wartość parametru
z prawdopodobieństwem
0,95.
Przykład (Reklama).(kontynuacja).
Z
wydruku
|
|
Dolne 95% |
Górne 95% |
Dolne 99,0% |
Górne 99,0% |
|
Przecięcie |
41,32334457 |
53,00653997 |
38,51977401 |
55,81011053 |
|
x1 |
0,934668753 |
2,263411919 |
0,61581547 |
2,582265202 |
|
x2 |
0,426949621 |
1,870546256 |
0,080535401 |
2,216960475 |
odczytujemy
np.
a) 99 % przedział ufności dla parametru ![]()
.
Przedział
zawiera prawdziwą
wartość parametru
z prawdopodobieństwem
0,99.
b) 95 % przedział ufności dla parametru ![]()
.
Przedział
zawiera prawdziwą
wartość parametru
z prawdopodobieństwem
0,95.
Uwaga. Gdyby estymatory
rozpatrywać
oddzielnie, to łącznym obszarem ufności dla obu parametrów byłby prostokąt o
bokach będących przydziałami ufności dla pojedynczych parametrów. W
rzeczywistości obszary te są bardziej skomplikowane. Na przykład, przy
założeniach przyjętych w niniejszych wykładach są to elipsy. Nie każdy punkt
prostokąta pojawia się w łącznych obszarach ufności.
7.3 Testy istotności dla parametrów regresji.
Zainteresujemy
się obecnie oceną istotności poszczególnych parametrów regresji
. Chodzi tu o sprawdzenie, czy zmiany zmiennej objaśniającej
w jakimś stopniu
wyjaśniają zmienność zmiennej objaśnianej y.
Jeżeli tak, to zmienną
włączamy do równania.
Precyzyjniej, będziemy testować hipotezy o poszczególnych
parametrach (współczynnikach kierunkowych) równania regresji postaci:
(0)
![]()
(1)
![]()
![]()
(i)
![]()
![]()
(k)
![]()
Podamy
teraz algorytm postępowania w przypadku testowania hipotezy istotności
dowolnego z parametrów regresji. Niech będzie to np. parametr
. Przyjmiemy także trzy warianty hipotezy alternatywnej
. Testujemy więc trzy pary hipotez:
![]()
![]()
Test
opieramy o sprawdzian
.
Obszar krytyczny testu zależy od przyjętej hipotezy
alternatywnej:
(a)
![]()
,
(b)
![]()
,
(c)
![]()
,
gdzie
·
k jest liczbą zmiennych
objaśniających,
·
n jest liczbą obserwacji.
·
,
są wielkościami
odczytywanymi z tablic krytycznych wartości rozkładu t (rozkładu t-Studenta).
Zatem, jeżeli wartość sprawdzianu t należy do obszaru krytycznego K,
to odrzucamy hipotezę zerową
i przyjmujemy
hipotezę alternatywną
. Oznacza to , że parametr
jest istotny (na
poziomie istotności
) i należy włączyć go do równania regresji. W przypadku, gdy
jeżeli wartość sprawdzianu t nie
należy do obszaru krytycznego K, to
nie ma podstaw do odrzucenia hipotezy zerowej
. Mówimy wtedy, ze parametr