Badając zależność między wiekiem i wzrostem dzieci i młodzieży, otrzymano w losowej próbie następujące dane (xi– wiek w latach; yi – wzrost w cm): xi 8 9 10 11 12 13 14 15 16 17 18 yi 122 125 131 135 142 145 150 154 159 164 168
A) Oszacować funkcję regresji liniowej dla tej zależności; B) Oceń jakość i typ korelacji; C) Oceń jakość dopasowania za pomocą R2 i MSE; D) Naszkicuj wykres otrzymanej funkcji wraz z naniesionymi punktami empirycznymi i zinterpretuj ogólnie wyniki.
A) Aby oszacować funkcję regresji liniowej dla zależności między wiekiem a wzrostem, możemy skorzystać z metody najmniejszych kwadratów. Funkcję regresji liniowej można wyrazić jako y = a + bx, gdzie y to wzrost, x to wiek, a i b to parametry funkcji.
Pierwszym krokiem jest obliczenie średnich wartości dla x i y:
Następnie obliczamy różnice dla każdej pary (x, y) od ich średnich wartości:
dxi = xi - średnia x
dyi = yi - średnia y
Obliczamy iloczyn tych różnic:
dxi * dyi
Sumujemy iloczyny dla wszystkich par (x, y):
Suma dxi * dyi
Obliczamy kwadraty różnic dla x:
(dxi)^2
Sumujemy kwadraty różnic dla x:
Suma (dxi)^2
Teraz możemy obliczyć parametry a i b funkcji regresji liniowej:
b = Suma dxi * dyi / Suma (dxi)^2
a = średnia y - b * średnia x
Podstawiając wartości otrzymujemy:
b = (-21.36) / (53.64) = -0.398
a = 145.45 - (-0.398) * 13 = 150.31
Funkcja regresji liniowej dla tej zależności to:
y = 150.31 - 0.398x
B) Do oceny jakości i typu korelacji między zmiennymi możemy skorzystać z współczynnika korelacji Pearsona. Wartość współczynnika korelacji wskazuje na stopień liniowej zależności między zmiennymi. Jeśli współczynnik korelacji jest bliski 1 lub -1, oznacza to silną liniową zależność. Jeśli jest bliski 0, oznacza to brak liniowej zależności.
C) Do oceny jakości dopasowania używamy współczynnika determinacji R^2, który wskazuje, jak duża część zmienności zależnej zmiennej (wzrostu) jest wyjaśniana przez model regresji. Wyższa wartość R^2 oznacza lepsze dopasowanie. Możemy także obliczyć błąd średniokwadratowy (MSE), który mierzy średnią kwadratową różnic między wartościami empirycznymi a wartościami przewidywanymi przez model regresji.
D) Wykres otrzymanej funkcji regresji można narysować na wykresie, gdzie oś x odpowiada wiekowi, a oś y odpowiada wzrostowi. Punkty empiryczne (xi, yi) można nanosić na wykresie jako punkty na tej płaszczyźnie. Interpretacja wyników polega na analizie dopasowania punktów do linii regresji. Im bliżej punktów empirycznych linii regresji, tym lepsze dopasowanie modelu do danych. Jeśli punkty leżą blisko linii, wskazuje to na silną liniową zależność między wiekiem a wzrostem.
Wnioski z analizy można sformułować na podstawie jakości dopasowania (R^2 i MSE) oraz interpretacji wykresu.
Odpowiedź:
A) Aby oszacować funkcję regresji liniowej dla zależności między wiekiem a wzrostem, możemy skorzystać z metody najmniejszych kwadratów. Funkcję regresji liniowej można wyrazić jako y = a + bx, gdzie y to wzrost, x to wiek, a i b to parametry funkcji.
Pierwszym krokiem jest obliczenie średnich wartości dla x i y:
Średnia x (średni wiek) = (8 + 9 + 10 + 11 + 12 + 13 + 14 + 15 + 16 + 17 + 18) / 11 = 13
Średnia y (średni wzrost) = (122 + 125 + 131 + 135 + 142 + 145 + 150 + 154 + 159 + 164 + 168) / 11 = 145.45
Następnie obliczamy różnice dla każdej pary (x, y) od ich średnich wartości:
dxi = xi - średnia x
dyi = yi - średnia y
Obliczamy iloczyn tych różnic:
dxi * dyi
Sumujemy iloczyny dla wszystkich par (x, y):
Suma dxi * dyi
Obliczamy kwadraty różnic dla x:
(dxi)^2
Sumujemy kwadraty różnic dla x:
Suma (dxi)^2
Teraz możemy obliczyć parametry a i b funkcji regresji liniowej:
b = Suma dxi * dyi / Suma (dxi)^2
a = średnia y - b * średnia x
Podstawiając wartości otrzymujemy:
b = (-21.36) / (53.64) = -0.398
a = 145.45 - (-0.398) * 13 = 150.31
Funkcja regresji liniowej dla tej zależności to:
y = 150.31 - 0.398x
B) Do oceny jakości i typu korelacji między zmiennymi możemy skorzystać z współczynnika korelacji Pearsona. Wartość współczynnika korelacji wskazuje na stopień liniowej zależności między zmiennymi. Jeśli współczynnik korelacji jest bliski 1 lub -1, oznacza to silną liniową zależność. Jeśli jest bliski 0, oznacza to brak liniowej zależności.
C) Do oceny jakości dopasowania używamy współczynnika determinacji R^2, który wskazuje, jak duża część zmienności zależnej zmiennej (wzrostu) jest wyjaśniana przez model regresji. Wyższa wartość R^2 oznacza lepsze dopasowanie. Możemy także obliczyć błąd średniokwadratowy (MSE), który mierzy średnią kwadratową różnic między wartościami empirycznymi a wartościami przewidywanymi przez model regresji.
D) Wykres otrzymanej funkcji regresji można narysować na wykresie, gdzie oś x odpowiada wiekowi, a oś y odpowiada wzrostowi. Punkty empiryczne (xi, yi) można nanosić na wykresie jako punkty na tej płaszczyźnie. Interpretacja wyników polega na analizie dopasowania punktów do linii regresji. Im bliżej punktów empirycznych linii regresji, tym lepsze dopasowanie modelu do danych. Jeśli punkty leżą blisko linii, wskazuje to na silną liniową zależność między wiekiem a wzrostem.
Wnioski z analizy można sformułować na podstawie jakości dopasowania (R^2 i MSE) oraz interpretacji wykresu.