Ik heb de tabel als bijlage meegestuurd, ik heb de waarden ook uitgerekend, weet niet of ze correct zijn maar kom nu niet verder . Kan iemand mij op weg helpen?
Een arts heeft een kleine steekproef genomen van vrouwen die net bevallen zijn. Hij wil weten of er een verband is tussen het aantal sigaretten dat tijdens de zwangerschap gerookt is en het geboortegewicht van het kind. Daarom vraagt hij naar het gemiddeld aantal sigaretten dat de verse moeders tijdens hun zwangerschap per dag rookten en het geboortegewicht van hun kind.
a. Bereken op basis van onderstaande tabel de determinatiecoëfficiënt R²
b. Voorspel het geboortegewicht van een kind dat geboren wordt bij een moeder die 20 sigaretten per dag rookt tijdens de zwangerschap.
Persoon N Aantal sigaretten per dag X Geboortegewicht kind Y x - x̄ y - ȳ (x - x̄)( y - ȳ) xy x²
1 5 3.300
2 12 3.100
3 0 3.550
4 2 3.600
5 5 3.350
6 7 3.400
7 14 3.250
8 10 3.300
9 0 3.600
10 5 3450
11 0 3.400
12 9 3.100
Totaal: 69 40.400
Gem.: 5,8 3.366,7
SD: 4,8 169,7 Covariantie:
antwoord
Steekproef determinatiecoëfficiënt R2
Re: Steekproef determinatiecoëfficiënt R2
Vul eerst deze tabel verder in:
-- de eerste 3 kolommen had je al,
-- xg = het gemiddelde van x = 5.75 (je had dit afgerond tot 5.8, maar omdat er geboortegewichten met 3 significante cijfers gegeven zijn kan je beter doorrekenen met 5.75)
-- yg = het gemiddelde van y = 3366.7
Nu kunnen we de overige kolommen gaan invullen, steeds voor alle individuen i van 1 t/m 12, daarna de sommatie van die getallen (de groene regel in de tabel).
Voorbeeld voor de kolom x-xg:
i=1: x - xg = 5 - 5.75 = -0.75
i=2: x - xg = 12 - 5.75 = 6.25
en zo verder
Evenzo de andere kolommen:
y-yg: i=1: y - yg = 3300 - 3366.67 = -66.67
enz.
(x-xg)*(y-yg): i=1: (x-xg)*(y-yg) = -0.75 * -66.67 = 50.00
enz.
Met de sommaties van alle kolommen (in de groene regel) kunnen we de vragen nu gaan beantwoorden.
Een samenvatting van de formules vind je bijvoorbeeld hier:
https://mathworld.wolfram.com/Correlati ... cient.html
Ik weet niet welke formules je boek gebruikt, maar die zal je op die pagina waarschijnlijk wel terugvinden.
De basis zijn de kwadratensommen (neem de waarden van de sommaties hierin over uit je tabel):
\(ss_{xx} = \left(\sum x^2\right) - n\cdot \bar{x}^2 = \left(\sum x^2\right) - 12\times 5.75^2 =\; ...\)
\(ss_{yy} = \left(\sum y^2\right) - n\cdot \bar{y}^2 =\; ...\)
\(ss_{xy} = \left(\sum (x-\bar{x})\cdot(y - \bar{y}) \right) =\; ...\)
Dan is:
\(R^2 = \frac{ss_{xy}^2}{ss_{xx}\cdot ss_{yy}} =\; ...\)
Vraag b.:
Voor de voorspelling van het geboortegewicht \(\hat{y}\) bij een gegeven aantal sigaretten (x) bepaal je eerst de lineaire regressielijn
\(\hat{y} = a + b\cdot x\)
Hierin zijn a en b de constanten waarbij de lijn losjes gezegd "zo goed mogelijk langs al je punten loopt".
Die constanten a en b bereken je via:
\(b = \frac{ss_{xy}}{ss_{xx}} = \; ...\)
\(a = \bar{y} - b \cdot \bar{x} = 3366.67 - b \times 5.75 = \; ...\)
En nu je constanten a en b kent, kan je het voorspelde geboortegewicht \(\hat{y}\) bij aantal sigaretten x = 20 berekenen via
\(\hat{y} = a + b\cdot x\)
Die lijn kan je ook in een plaatje (scatter plot) weergeven (x=sigaretten, y=geboortegewicht in kg):
-- blauw = je data-punten
-- rode lijn = regressielijn, met daarop in rood het punt \((\bar{x}, \bar{y})\)
-- merk op: de constante a = het snijpunt met de y-as (als x=0 dan is \(\hat{y} = a + b \times 0 = a\))
Welke waarden vind je voor
-- \(R^2\)
-- a en b van de regressielijn
-- het voorspelde geboortegewicht bij 20 sigaretten?