DIGITALNA ARHIVA ŠUMARSKOG LISTA
prilagođeno pretraživanje po punom tekstu




ŠUMARSKI LIST 10-11/1974 str. 17     <-- 17 -->        PDF

Summary


EXAMPLE FOR ELECTRONIC DATA PROCESSING BY THE METHOD
OF STEPWISE REGRESSION


During 1970 were taken measurements of some characteristics in the progeny
test of European Larch on the experimental plot »Goić« near Jastrebarsko. Data
of measurement served as a material for the computation and finding of a multiple
linear equation as suitable as possible, using various working techniques in
the method of multiple stepwise regression. As a dependent variable (y) the height
of tree is used, and as independent variables (x) the following characteristics:
diameter b. h., number of branches per 1 m of length, diameter of the thickest
branch in the mid-crown, length of the thickest branch, diameter in the mid-
crown, insertion angle of branches and straightness of the stem. All computations
were performed on an IBM-computer of the Institute for Statistics, North Carorolina
University at Raleigh, USA, in 1971. In finding out the most favourable
linear equation by the method of multiple stepwise regression the following working
techniques were used: forward selection, backward elimination, stepwise,
maximum R-square improvement and minimum R-square improvement.


The method of multiple stepwise regression gave a very good insight into the
relations between the dependent variables and the independent ones, and into
the mutual relations within the independent variables (correlation coefficients).
Although this method is complicated when a great number of independent variables
are included into the model, the computations are much easier than when
the method of all possible regression equations is used. The number of combinations
in this method amounts to 2n. What working technique to use in applying
the method of multiple gradual regression is best lo leave to the user, for all of
them have their advantages and drawbacks. However, it ought to be stated that
in applying by means of the maximal and minimal determination coefficient (R4)
almost always the same equation should be selected.


In conclusion, it should be stated that the aim of this paper is to present
certain possibilities for using modern electronic systems in data processing by
means of methods of multiple regression, in the selection of the necessary number
of independent variables, disregarding the theoretical consideration of the problem
itself.




ŠUMARSKI LIST 10-11/1974 str. 16     <-- 16 -->        PDF

Na kraju, svrha ovog rada bila je da prikaže neke od mogućnosti upotrebe
modernih elektroničkih sistema pri obradi podataka metodama višestruke
regresije, kod odabiranja potrebnog broja nezavisnih varijabila, ne
ulazeći u teoretska razmatranja samog problema.


LITERATURA


Callaham, R. Z. and Hassel, A. A. (1961): Pinus ponderosa height growth of
wind pollinated progenies. Silvae Gen., 10:33—42.


Draper , N. R. and Smith , H. (1966): Applied regression analysis. John Wiley
and Sons, Inc., New York.


E m r o v i ć, B. (1960): O najpovoljnijem obliku izjednadžbene funkcije potrebne
za izjednačenje pri sastavu drvno-gromadnih tablica. Glasnik za šumske pokuse,
knjiga 14, Šumarski fakultet, Zagreb.


Goodnight , J. (1971): Stepwise regression procedure. Manuscprit, N. C. State
University, Raleigh.


G r a č a n, J. (1973): Varijabilnost i nasljednost nekih svojstava evropskog ariša
populacije Varaždinbreg, Magistarski rad, Šumarski fakultet Zagreb.


K r s t i n i ć, A. (1969): Procjena stupnja nasljednosti visina i promjera za bijelu
vrbu (Salix alba L.) izračunata iz klonskog testa kod starosti biljaka 1 + 1.
Šum. List, 91 (1/2): 48—53.


Matthews, J. D. Mitchel, A. F., Howel, R. (1960): The analysis of a diallel
crosses in Larch. Proc. 5th World Forestry Congress, 2: 818-824.


P e s c h e 1, W. (1938): Die mathematischen Methoden zur Herleitung der Wachstumsgesetze
von Baum und Bestand und die Ergebnisse ihrer Anwendung.
Tharandt, forstl. Jb., Bad. 89, Berlin.


Snedecor, G. W. and C oh ran, W. G. (1969): Statistical Methods. The Iowa
State Uniw. Press. Arnes. Iowa.


Snyder , R. B. (1969): Parental selection versus halfsib family selection of Longleagf
pine. Proc. of 10th Southern Conference on Forest Tree Improvement,
Houston, Texas, 84-88.


Squ´illace, A. E. and Bingham, R. T. (1960): Heritability of juvenile growth
rate in Western White Pine. Abstr. of semiformal research papers in Forest
Genetics, Proc. Soc. Amer. For., 1959.


St on e cypher , R. W. (1966): The Loblolly pine heritalility study. Ph. D. Thesis,


N. C. State University, Raleigh.
Vidaković, M. and Siddiqui, K. M. (1968): Heritalility of height and diameter
growth in Shisham (Dalbergia sissoo Roxb.) using one parent progeny
test. Pak. J. For. 18: 75—94.


Vidaković, M., Gračan, J. i Kr st ini ć, A. (1974): Prijedlog standardizacije
metoda istraživanja provenijencija kod nas, šum. List 98 (1/2): 1—20.




ŠUMARSKI LIST 10-11/1974 str. 15     <-- 15 -->        PDF

za tu varijablu izračuna suma kvadrata onda se razlikuje od sekvencijalne
sume kvadrata radi toga, što se promatra kad su sve druge varijabile u modelu.
Drugim riječima rečeno, ta se suma kvadrata izračuna i promatra kao
da je posljednja uključena u model (Draper, N. R. i Smith, H. 1966),
naziva se parcijalna (djelomična) suma kvadrata, a test parcijalni F-test.
Npr. za nezavisnu varijablu dužina grane (LB) u jednadžbi sa 5 nezavisnih
varijabila (Tabela 5) sekvencijalna suma kvadrata iznosi 63808,3912, a parcijalna
58125, 8274. Vidljivo je da su one različite, zato što nisu istim redom
uključene u model. Parcijalna suma kvadrata izračunata je tako kao da
su ostale 4 varijabile već u modelu, a dužina grane je uključena posljednja
u model. Parcijalne sume kvadrata su važne i radi toga jer se pomoću njih
i odgovarajućih elemenata iz recipročnog metriksa (X´X)-1 izračunaju regresioni
koeficijenti za svaku varijabilu. Parcijalnim F-testom se testira važnost
pojedine nezavisne varijabile, tj. na osnovu toga se može isključiti ili uključiti
pojedina varijabila iz modela, Svaki parcijalni F-iznos važan je i za testiranje
regresionih koeficijenata pomoću t-testa, odnosno apsolutni iznos t-testa
je drugi korijen iz pripadajućeg parcijalnog F-iznosa


(t = yF; F = fä).


ZAKLJUČAK


Tijekom 1970. godine obavljena su mjerenja nekih karakteristika u testu
potomstva evropskog ariša na pokusnom polju »Goić« kraj Jastrebarskog.
Podaci izmjera poslužili su kao materijal za izračunavanje i pronalaženje što
povoljnije višestruke linearne jednadžbe koristeći različite tehnike rada kod
metode višestruke postupne regresije. Kao zavisna varijabla (y) upotrebljena
je visina stabla, a kao nezavisne varijabile (x) upotrebljene su slijedeće karakteristike:
prsni promjer, broj grana na 1 m dužine, promjer najdeblje grane,
promjer u sredini krošnje, kut insercija grana i pravnost stabala. Svi obračuni
izvedeni su na IBM-računaru Instituta za statistiku, Sveučilišta Sjeverne
Karoline u Raleigh-u, SAD, tijekom 1971. godine. Kod pronalaženja najpovoljnije
linearne jednadžbe metodom višestruke postupne regresije upotrebljene
su ove tehnike rada: rana (prethodna) selekcija varijabila, povratna eliminacija
varijabila, grupna eliminacija varijabila, poboljšnje pomoću maksimalnog
determinacionog koeficijenta (R-) i poboljšanje pomoću minimalnog determinacionog
koeficijenta (R-).


Metoda višestruke postupne regresije dala je vrlo dobar uvid u međusobni
odnos kako zavisne i nezavisnih varijabila tako i unutar nezavisnih
varijabila (koeficijenti korelacije). Iako, ova metoda postaje komplicirana
kad je u model uključen velik broj nezavisnih varijabila, izračunavanja su
mnogo lakša nego kad se koristi metoda svih mogućih regresionih jednadžbi.
Broj kombinacija kod ove metode iznosi 2n. Koju tehniku rada upotrijebiti
kod primjene metode višestruke postupne regresije, najbolje je prepustiti
korisniku, budući da sve one imaju svojih prednosti i nedostataka. Međutim,
treba reći, da se kod primjene poboljšanja pomoću maksimalnog i minimalnog
determinacionog koeficijenta (R2) odabere gotovo uvijek istu jednadžbu.




ŠUMARSKI LIST 10-11/1974 str. 14     <-- 14 -->        PDF

Poboljšanje pomoću minimalnog determinacionog koeficijenta (R2). Ova
tehnika rada je ista kao i prethodna, osim što u svakom stadiju ostaju varijabile
koje najmanje povećavaju determinacioni koeficijent R2. Ovim postupkom
se odabere gotovo uvijek identična jednadžba kao i kod maksimalnog
determinacionog koeficijenta. Osim toga stroj će naštampati i kontrolni
model.


Tabela 11.
R* — iznosi, broj i naziv varijabila u jednadžbi dobiveni tehnikom najmanjeg
determinacionog koeficijenta (R2)


Broj varijabila Determinacioni


Naziv varijabila


u jednadžbi a koeficijenti (R2)


0,89322410 DBH, NB, DB, LB, CD


**
6 0,89329836 DBH, NB, DB, LB, CD, ST


**
6 0,89333133 DBH, NB, DB, LB, CD, BA


**
7 0,89342103 DBH, NB, DB, LB, CD, BA, ST


DBH = prsni promjer, NB = broj grana, DB = promjer grane,


LB = dužina grane, CD = promjer u krošnji,


BA = kut insercije grana, ST = pravnost.


** = Statistički signifikantno na nivou od 1%.


Svi podaci dobiveni ovom tehnikom jednaki su podacima kod poboljšanja
pomoću maksimalnog determinacionog koeficijenta (R-), osim što su
kod ovog postupka dane dvije jednadžbe sa 6 nezavisnih varijabila, od kojih
je ona jednadžba u kojoj je kut insercije grana sa nešto većim determinacionim
koeficijentom (Tabela 11).


Kod metode višestruke regresije, nezavisne varijabile se uključuju u
model po određenom redu jedna iza druge. Svaka od varijabli ima određeni
udio u ukupnoj sumi kvadrata za regresiju (D r a p e r, N. R. i Smith, H.
1966). U našem radu udio pojedinih varijabila u ukupnoj sumi kvadrata vidljiv
je u Tabelama 5, i 7 i 8. Te sume kvadrata se nazivaju sekvencijalnim,
a F- iznosi za svaku sumu sekvencijalnim F- testom. Zbroj sekvencijalnih
suma kvadrata jednak je ukupnoj sumi kvadrata za regresiju uz određeni
broj stupnjeva slobode.


Kada se u jednadžbi već nalazi određeni broj varijabila, često se želi
ustanoviti važnost pojedine varijable i njezin doprinos u jednadžbi. Ako se




ŠUMARSKI LIST 10-11/1974 str. 13     <-- 13 -->        PDF

činje s najboljom jednostavnom regresionom jednadžbom s obzirom na najviši
determinacioni koeficijent (R2).


Rad se nastavlja dodavanjem najboljih preostalih varijabila formirajući
regresionu jednadžbu sa najbolje dvije nezavisne varijable. Nakon toga ove
dvije varijable u jednadžbi se kombiniraju u paru sa svim ostalim varijabilama,
tako da se jedna isključi a druga uključi. Kada su sve kombinacije
isprobane, par varijabila koje imaju najveći Ra iznos ostaju u jednadžbi.
Nakon toga se dodaje treća varijabla, ponavljajući dok se ne dobije najbolja
jednadžba sa tri nezavisne varijabile, itd. Ova tehnika rada ispituje sve kombinacije
formirajući jednadžbu postepeno.


Tabela 10:
R2 — iznosi, broj i naziv varijabila u jednadžbi dobiveni poboljšanjempomoću maksimalnog det. koeficijenta


Broj varijabila Determinacioni ,.


Nazlv


u jednadžbi a koeficijenti (R2) varijabila


k-k
5 0,89322410 DBH, NB, DB, LB, CD


**
6 0,89333133 DBH, NB, DB, LB, CD, BA


**
7 0,89342103 DBH, NB, DB, LB, CD, BA, ST


a DBH = prsni promjer, NB = broj grana, DB = promjer grane,


LB = dužina grane, CD = promjer u krošnji,


BA = kut insercije grana, ST = pravnost.


** = Statistički signifikantno na nivou od 1%.


Iz tabele 10 je vidljivo da su ovom tehnikom odabrane jednadžbe sa 5,
6 i 7 nezavisnih varijabila. Jednadžba sa 5 je zahtijevana (INCLUDE = 5;)
i odabrana je od već standardnih 5 varijabila (DBH, NB, DB, LB, CD),
dok je jednadžba sa 6 varijabila bolja kad je odabrana sa kutom insercije
grana nego sa pravnošću, tj. determinacioni koeficijent (R2) je viši. Jednadžba
sa 7 varijabila ima neznatno viši determinacioni koeficijent nego jednadžba
sa 6, a ova se isto tako gotovo ne razlikuje od modela sa 5 nezavisnih varijabila.
Svi ostali podaci (analiza varijance, regresioni koeficijenti i dr.) nalaze
se u Tabelama 5, 7 i 8. Odabrane jednadžbe sa 6 i 7 varijabila su slijedećeg
oblika:


Y6 = 94,9015 + 49,5340 DBH + 0,3310 NB — 37,3865 DB + 0,9715 LB +


+ 8,1971 CD — 1,8640 BA (S. E. = 27,77)
Y7 = 94,1016 + 49,4484 DBH + 0,3326 NB —37,4330 DB + 0,9668 LB +


+ 8,3158 CD —2,0000 BH + 0,7423 ST (S. E. = 27, 78)
377




ŠUMARSKI LIST 10-11/1974 str. 8     <-- 8 -->        PDF

(r = 0,1152++), te visina i pravnosti (r = 0,1199++). Ovi podaci pokazuju da
su međusobni odnosi između ovih karakteristika relativno niski i slabi, ali
signifikantni na nivou od 1´%. To znači da u pravilu visoka stabla ne moraju
biti i pravna, a isto tako deblja stabla nisu u pravilu i pravna. Naravno da
se ovi rezultati odnose na potomstvo evropskog ariša, koje je obrađeno u
ovom radu. Ostali korelacioni koeficijenti između pojedinih karakteristika
vidljivi su iz spomenute tabele.


Važnost pojedinih varijabila, može se procjenjivati i pomoću veličine
međusobnih korelacionih koeficijenata .Ako dvije varijabile imaju visok međusobni
stupanj veze potrebno ih je u model uključiti pojedinačno, da bi
se ustanovilo koja ima veći determinacioni koeficijent u modelu.


Rana (prethodna) selekcija varijabila. Koi dabiranja određenog broja
nezavisnih varijabila koje daju najbolji uvid u zavisnu varijablu javljaju se
dva suprotna kriterija. Prvi se sastoji u tome da se u modelu zadrži što veći
broj nezavisnih varijabila kako bi se dobilo što veće poboljšanje kod izjednačavanja.
Drugi se sastoji u tome da se u modelu zadrži što manji broj
varijabila koje će uz najmanje troškove dati što bolje poboljšanje kod izjednačavanja.
Nema jedinstvene statističke metode za odabiranje najpovoljnijeg
broja varijabila. Radi toga će vrlo često odlučiti vlastita procjena koji


će se postupak primijeniti.
Tabela 3.
Korelacioni koeficijenti za proučavane karaktevropskog ariša (672 deristike. /.Ja
u testu potomstva
Karak
5


u


Pravnost


teristika


o


Dužina
grane


rt p -^ 05


OM s a


+* - k> u


>


ffl


a PH ao


kn * * * *
Prsni promjer 0,9373 —0,1352**
0,6433
**
0,7874
**
Visina — —0,1050 0,6063 0,7998
**
Broj grana — — 0,0670 —0,1285 -
**
Promjer grane — — — 0,7451


—. —
Promjer u krošnji —


Dužina grane


— — —


Kut insercije grana — —
** Statistički signifikantno na nivou od VU.


* Statistički signifikantno na nivou od 5"Vo.
0,9130 —0,0263
0,8742 —0,0422


**
-0,1188 0,0383
**
0,6968 0,0621


0,7905 —0,0213
— —0,0392


— —


0,1152


0,1199
—0,0299


*#
0,0989
0,1253


itie


0,0928


0,0777




ŠUMARSKI LIST 10-11/1974 str. 7     <-- 7 -->        PDF

aY´Y = Suma kvadrata za ukupnu varijabilnost [premetnuti (Y´) red vektor
pomnožen sa kolona y-vektorom],


= Ukupni broj stupnjeva slobode,
(2Yi)8
iiY* = Korekcioni faktor za sredinu = ,
n
b´X´Y = Suma kvadrata za regresiju sa p stupnjeva slobode, tj. 7 u našem
primjeru,


il


= (bo, bi, b2, b.j, b4, b5, br„ b-) X


2Yj


b´ SXjYi


2X2Yi


SX3Yi


2X4Yi


SXsYi


2X6Y;


2X7Yi


S2X´Y


= Srednji kvadrat za grešku.


REZULTATI I DISKUSIJA


Korelacija. Na bazi podataka, koji su upotrijebljeni u ovim proučavanjima,
izračunati su korelacioni koeficijenti (r) za sve zavisne i nezavisnu
varijablu (Tabela 3). Iz ranijih proučavanja ustanovljen je vrlo visok korelacioni
koeficijent između prsnih promjera i visina, to će reći da su deblja
stabla u pravilu viša, i obratno. Korelacija između prsnog promjera, visine
i drvne mase (jednog dijela stabla) je prirodna pojava koja pokazuje očitu
zakonitost (E m r o v i ć, B. 1960). Na osnovu toga deblje i više stablo ima
prosječno i veću drvnu masu. Svakako da je to povezano sa zakonitošću rastenja,
koje se može opisati funkcijom. Pitanje te zakonitosti i njezinom
eventualnom matematskom obliku u šumarskoj biološkoj literaturi dana je
velika važnost (P e s c h e 1, W. 1938). Ne može s reći da je veliki volumen
uzrokovan jedino velikim prsnim promjerom i velikom visinom, već su sve
te tri karakteristike posljedica kompliciranog spleta uzroka i posljedica okoline
(stanišni faktori i način gospodarenja) i nasljednih faktora. Poznato je
iz literature da je visina pod strožom genetskom kontrolom od prsnog promjera,
odnosno prsni promjer je više uvjetovan faktorima okoline nego nasljeđa
(Matthews, J.D. i drugi, 1960; C a 11 a h a m, R. Z. i H a s e 1, A. A.
1961; S q u i 11 a c e, A. E. i Bingham, R. T. 1960; Stonecypher, R. W.
1966; Snyder, E. B. 1969; K r s t i n i ć, A. 1967; K r s t i n i ć, A. 1968; V idaković,
M. i Siddiqui, K. M. 1968; Gračan, J. 1973).


Iz Tabele 3 vidi se da je korelacioni koeficijent između prsnih promjera
i visina vrlo visok (r = 0,9373 + +), signifikantan na nivou od 1%, kao i korelacioni
koeficijent između promjera u krošnji i visine (r = 0,8742++). Također
je iz iste tabele vidljiv odnos između prsnih promjera i pravnosti


371




ŠUMARSKI LIST 10-11/1974 str. 6     <-- 6 -->        PDF

Premetnuti metriks (X´) je tkav metriks u kojem se redovi pišu kao kolone,
a kolone kao redovi. U našem radu premetnuti (X´) metriks ima ovaj
oblik:





1 1 1 1 . . . . . 1
16 28 17 5 . . . . . 48
32 26 34 26 . . . . . 23
7 8 10 8 . . . . . 12
71 80 80 67 . . . . . 77
21 27 23 14 . . . . . 42
3 3 3 3 . . . . . 2
2 2 2 1 . . . . . 2


8 X 673 (metriks)


Premetnuti metriks (X´) ima 8 redova, a 673 kolone, dok (X) metriks
ima 673 reda a 8 kolona. Za dobivanje parametara b, tj. koeficijenata smjera
od bo do b; potrebno je riješiti skup tzv. normalnih jednadžbi. Normalne
jednadžbe u metriks algebri su oblika:


X´Xb = XT


odnosno


b = (X´X)-iX´Y
gdje je:
b = kolona vektor koeficijenata smjera od b0, bi, b2, b:i, b4, b5, b«, b-;
X´X = premetnuti metriks (X´) pomnožen s X-metriksom;
(X´X)-1 = recipročna vrijednost premetnutog (X´) metriksom (X´) pomnože


nog s X-metriksom;
X´Y = premetnuti metriks (X´) pomnožen sa Y-kolona vektorom.


Oblik analize varijance u metriks algebri dan je u Tabeli 2.


Tabela 2.
Oblik analize varijance u metriks algebri upotrijebljen za pronalaženjeadekvatnog broja nezavisnih varijabli u postupnoj regresiji


Izvor varijabilnosti a D. F. Sume kvadrata Srednji kvadrat
Ukupno (ne korigirano) n Y*Y
Sredina (bo) 1 nY-*
Ukupno korigirano (n-1) (Y´Y-nY->) (b´X´Y-nY*)
Regresija/bo P (b X Y-nY-´) P
Greška (n-l-p) (Y´Y-b´X´Y) S3




ŠUMARSKI LIST 10-11/1974 str. 5     <-- 5 -->        PDF

bj = (j = 1, 2 .... p) je parametar koji predstavlja odnos j-te neza


visne varijable prema zavisnoj varibajli,
Xu = veličina j-te nezavisne varijable i-te biljke u pokusu,
e; = slučajna greška povezana s izmjerama podataka na i-toj biljci u


pokusu, koja je normalno distribuirana sa sredinom nula (0) i
varijancom a2.


Kod strojne obrade podataka metodom najmanjih kvadrata korištena je
»metriks« algebra. Metriks (matrix) je grupa brojeva ili simbola složenih u
redove i kolone između zagrada (Draper, N. R. i Smith, H., 1966). Prediktivna
jednadžba u metriks obliku izgleda:


Y = Xb + e


gdje je:
Y = vektor opažanja za zavisnu varijablu (visine stabala, tj. Yj, Y2,


Y3, Y4 Y673);
X = metrix nezavisnih varijabli (X0, Xi, X2, X3, X4, Xs, X6 i X7);
b = vektor parametara (tj. koeficijenti smjera, bo, bi, b2, b3, b4, bs,


b6 i b7);
e = vektor grešaka (tj. et, e2, e-;, ei, . . . . ecra).
Gornja jednadžba prikazana pomoću metriksa za naše podatke izgleda
ovako:


Y Xo Xi X2 X3 X4 X5 Xß X7 b e


Yi 1 16 32 7 71 21 3 2 bo ei
Y2 1 28 26 8 80 27 3 2 b i e2
Y3 1 17 34 10 80 23 3 2 b2 e3
Y4 1 5 26 8 67 14 3 1 b3 e4
b4 .
= X
b5
b6 + .
b7
~8xT~
(vektor) ,
Y673 1 48 23 12 77 42 0673
673 X 1 673 X 8 673 X 1
(vektor) (metriks) (vektor)
tj.


Yi bo + 16 bi + 32 b2 + 7b3 + 71 b4 + 21 b5 + 3b6 + 2b7 + ei
Y-2 bo + 28 b, + 26 b2 + 8 b3 + 80 b4 + 27 b5 + 3 b6 + 2 b7 + e2
Y673 bo + 48 bi + 23 b2 + 12 b3 + 77 b4 + 42 b5 + 2 b6 + 2 b7 + e673


369




ŠUMARSKI LIST 10-11/1974 str. 4     <-- 4 -->        PDF

Podaci dobiveni izmjerama upotrijebljeni su kod izračunavanja i pronalaženja
najpovoljnijeg linearnog modela koji bi bio prikladan za procjenjivanje
zavisne varijable pomoću više nezavisnih varijabila metodom višestruke
postupne regresije. Kao zavisna varijabla (Y) upotrijebljene su visine
stabala u testu potomstva, a kao nezavisne varijabile upotrijebljene su: prsni
promjer (Xi), broj grana na 1 m dužine (X2), promjer najdeblje grane u
sredini krošnje (X3), dužina najdeblje grane (X4), promjer u sredini krošnje
(X5), kut insercije grana (Xe) i pravnost stabala (X7).


Obrada podataka primjenom različitih tehnika metodom višestruke postupne
regresije izvršena je na stroju pomoću posebnog programa koristeći
tzv. programski jezik (V i d a k o v i ć, M. i drugi 1974). Program za obradu
podataka izmjera u nešto skraćenom obliku dan je u Tabeli 1. Primjenjene
su slijedeće tehnike obrade podataka:


T.b.la r IK


— rana (prethodna) selekcija varijabila;
— povratna eliminacija varijabila;
— grupna eliminacija varijabila;
— poboljšanje pomoću maksimalnog determinacionog koeficijenta (R2);
— poboljšanje pomoću minimalnog determinacionog koeficijenta (R2).
Za odabiranje odgovarajuće linearne jednadžbe upotrijebljen je slijedeći
prediktivni model:


Y = b0 + biXj + . . . + bPXiB + e;
gdje je:


Y — iznos visine stabla u cm i-te biljke u pokusu,




ŠUMARSKI LIST 10-11/1974 str. 3     <-- 3 -->        PDF

ŠUMARSKI LIST


SAVEZ INŽENJERA I TEHNIČARA ŠUMARSTVA I
DRVNE INDUSTRIJE HRVATSKE


GODIŠTE 98 LISTOPAD — STUDENI GODINA 1974.


PRIMJER ZA ELEKTRONIČKU OBRADU PODATAKA
METODOM POSTUPNE REGRESIJE


Mr. ing. JOSO GRAĆAN,


Šumarski institut, Jastrebarsko


UVOD


Regresijom se u statistici označava odnos između zavisne i jedne ili više
nezavisnih varijabila, dok u (matematici to znači da je zavisna varijabla funkcija
jedne ili više nezavisnih varijabla( Snedccor, G. W. i Cochran,


W. G. 1969). Metoda višestruke postupne regresije, ako se ispravno upotrijebi,
daje dobar uvid u međusobni odnos između zavisne i nezavisnih varijabila.
Višestruka regresija je dosta složena, a izračunavanja postaju vrlo
komplicirana kada je u model uključen velik broj nezavisnih varijabila.
Obradom podataka putem suvremenih elektroničkih sistema uvelike je olakšana
primjena tzv. metode najmanjih kvadrata u rješavanju problema iz područja
višestruke regresije. Kod ove mtode potrebno je unaprijed poznavati
oblik funkcije po kojoj će se izjednačavanje izvršiti (Emrović , B. 1960).
Svrha ovog rada je: (1) Primjena različitih tehnika obrade podataka metodom
višestruke postupne regresije pomoću standardnog elektroničkog IBM-
sistema, i (2) Odabiranje potrebnog broja nezavisnih varijabila koje što bolje
objašnjavaju ukupnu varijabilnost zavisne varijable.


Svi obračuni izvedeni su na računaru Instituta za statistiku, Sveučilišta
Sjeverne Karoline u Raleigh-u, SAD, tijekom 1971. godine. Materijalnu pomoć
pri izradi ovog rada dali su Republički savjet za naučni rad SRH, Zagreb
i Jugoslavenski institut za četinjače, Jastrebarsko.


Svim navedenim organizacijama zahvaljujem se na ukazanoj pomoći.


MATERIJAL I METODE


Kao materijal za ovaj rad poslužila su mjerenja nekih svojstava u testu
potomstva evropskog ariša. Test je osnovan na pokusnom polju »Goić« ,kod
Jastrebarskog u proljeće 1966. godine, a mjerenja su izvršena tijekom 1970
(Gračan, J. 1973).


367




ŠUMARSKI LIST 10-11/1974 str. 12     <-- 12 -->        PDF

Tabela 8.


-daa/zza rasj/onCG- */ac/cr &c v moc/c/u /lat´ozi \rex/o/n


*wyptr4*/m€*&fi "^ iSt//3TG Afrere/rerfo *?rcrcćr#e-L//*&s//a 7 4$02550,$3&6 Sft-SĆOJfSf 796,35 ?$L 0t/93±2t03 s S7ees
Gse?J«o 665 S/326*, 649* 771. 8263
L/*u/>rto 672 48/58/6, 4-823
S´/y,´vfrA>a/}.´i/io
faro** ff* &´*>rrevTCtycr/s?&tresne
/k´/Wtf
-/f/^O/Tt/cA 1 4-230532J238 6841,27319´ 425162,69/Ü 550, 852\SŽ
Lf&/ ff/vzaa
-/tya/rije-/* ^rcr/ier
_J?t/J~-´´7y^-o^Ji/A/-^/"cv/tost
/////
/
23 09 222.0
65, 9682
63808, 3913
4-826, 7733
5/6, J9/443f,
9735
2 39fS9
O, OS 5* 6
32, 67/93
6,25370
0,66305
i? 55968
4067,5/29
17122.22 70
56640,54-4/
4-784-, 8856
590, 7512
431, 973 J
526996
22, /8Č03
73,3dSO 7
O] Z9943
0, 76339
$56968


faro** ds^
cios-/
iSVeo^/?^
»*-!*« <3/xy grcr/ic
34-,101b´
M, 4+8*0,3J26´
43,4~?A1Š2 2956t0
7e1
0,0291*2
flro^7i/Lji0 jrKi/ic:
-fls-omjcs- *S/-ašsyc
0..9668
6. J/58
ä,56Si)
2, 4S9S7
020676
OOgöY6
^(// j^iCT-y o - L, OO OO 0374-87 -0,0ft21
-flfOmCLSJ a, 7M3 0,7-t-8´2 0.00959


Tabela 9.
R* — iznos, broj i naziv varijabila u jednadžbi dobiveni grupnom eliminacijom
varijabila3


Broj varijabila Determinacioni


Naziv varijabila


u jednadžbi koeficijent (R2)


* -k


5 0,89322410 DBH, NB, DB, LB, CD


a DBH = prsni promjer, NB = broj grana, DB = promjer grane,
LB = dužina grane, CD = promjer u krošnji,
** = Statistički signifikantno na nivou od 1%.


U Tabeli 9 navedeni su podaci koji su u potpunosti identični podacima
u Tabeli 4, tj. za ranu selekciju varijabila. Na osnovu toga odabrana je ista
jednadžba. Svi ostali podaci (analiza varijance, regresioni koeficijenti, i dr.)
dani su u Tabeli 5.


Poboljšanje pomoću maksimalnog determinacionog koeficijenta (R-). Ovu
tehniku izračunavanja na IBM-stroju razvio je Goodnight , J. (1971). Po




ŠUMARSKI LIST 10-11/1974 str. 11     <-- 11 -->        PDF

determinacioni koeficijent gotovo ne razlikuje kad se u jednadžbi nalazi 5,
6 ili 7 nezavisnih varijabila. Test signifikantnosti nije proveden za prvih pet
varijabila, budući je postupkom tako zahtjevano (INCLUDE = 5;) dok preostale
jednadžbe nisu signifikantne na nivou od 10% (kut insercije grana
i pravnost). Ovom metodom je odabrana ista jednadžba za visine, kao i u
prethodnoj metodi, i to:


Y = 90,1284 + 49,5018 DBH + 0,3276 NB —38,2115 DB + 0,9764 LB +


+ 8,3325 CD (S. E. = 27,76)
Analiza varijance, regresioni koeficijenti (b) i ostali podaci za gornju
jednadžbu dani su u Tabeli 5, za jednadžbu sa 6 varijabila u Tabeli 7, te
za jednadžbu sa 7 varijabila u Tabeli 8.


Tabela 7.


raw/&&fo<>sf{
7Pe.r(/G/* e-irVo1
ć/rft/jD/lO
a*
6
666
672
(Same *rodrtrA*
4302H8.8S99
S/363S.H230
48/38/3,4829
7/70/3, 81*99
77/,3/e3
323,6054-8
#*
089333183
c. r
3,6674*5
oJ
{?,/ %
1%
orj S%
Zz.ro/* JU;
-/tfO/Tl/G-/*
-&/«o/´ &/-&/*&
-/faoiT/e:/* /&*&*& JfCtlC
-/^/G/nye-^ tVossyc
jfof ^´criC´tycr
t
t
i
>/i
4230592./238
23 OS63,63808,4826,
S/6,
2220
9S82
3312
7732
39/4
5464; 39§š}
2, 99337
0,O865i
S272&65
62578?
0,689*3
427898.0374
4029.4233
17080. 734S
3738/, 83/0
4639, 7o42
ćie, 39/4
354:76 š ^
6.224o3
22/4*96
74.39469
6.0H2f
0,66949


faro/* 4/***&&/
CTsec/zict 94, 90/S
-/Sso/n/er/* 49.534c 23,55i4*Ž 0,76272
Srcj y/^r/ia 0,33/O 22856$ 0.O2328
-r7//rlfeT/* ^/\»*« r -37.3865 -4 705~Sf -0,034o2
_Äif/-7Ly ^verrte0,97/
3 8.62&Z H2a778
-/7s-o/n/c-/~ A´s-ojsye:
yf/ty/ ^Scr/iCMscr -
8. /97/
/864c -
2,45765
0,8/823 -
0.08227
0O/04S


Grupna eliminacija varijabila. Postupak kod izračunavanja ovom tehnikom
je isti kao i kod rane selekcije varijabila, tj. stroj u jednadžbu uključuje
jednu po jednu nezavisnu varijablu, pod uvjetom da je signifikantna na određenom
nivou. Kada je pojedina varijabla uključena u jednadžbu, stroj kontrolira
da li su sada varijabile ranije uključene signifikantne na tom nivou
da mogu ostati u jednadžbi. Sve varijabile koje nisu signifikantne isključuju
se iz jednadžbe istovremeno pa je otuda i gornji naziv za ovaj postupak.




ŠUMARSKI LIST 10-11/1974 str. 10     <-- 10 -->        PDF

Tabela 5.
-rfacd/jrcr ra/yar/icc-*?& (/ /no

*3


AWyc/^W "~L tfćs/7?c> x/rcrc/rcrfcr


V


jfcp^er^a 5 4-50/602,4686 Ö60320, 49-57 f/tSMši 0)893224/0 9,66SoS
GfL>Ć*cr 667 5/42/3,0/43 770 9MO
l/i?apf?c 672 4&fL8f<5, 4829


Amreu* J?JT
-/fro/Ti/ef 1 4260592, 1238 J*S7,6liiS 4274-91. 4KIS3 SJ~iS/SSŠ
ftsoj yyo^ c
y^rc/Ti/er-č?r&>7(-~
__/?*/L/na* &/*L7fic
i^ro/n/er eroS/ye//
/
/
2309,6565808,4826
2220
9581
39 12
7732
2,9 9531
0t 08556
82767,´i
6.2609$
5951,
tS 13 5,
SSI2S.
4826,
2222
IOIO
827lt
7732
SJ2S24
23,5235-f
7i,39iii
6,26os i


/xros* 6 Axri
očT/~€~c///2ct
-/^l:w / /e/ ,
S r oj .yrc/act
flfom/er grane_
ffcS´/fc/ ^gs-cr/i e90,
i28449.50´
to
03276
- 38. 2t 15
0,9764
-
23^54-aćk
2. 26390
4-85 O´M
8603 7 2
-
0, 76222
0,02898
0,096f0
0,20883
-ftW71J6/* *ć/*oL´yt 83*25 2,5021a 0, 08362


Tabela 6.
R2 — iznosi, broj i naziv varijabila u jednadžbama dobiveni povratnom
eliminacijom varijabila^


Broj varijabila


R2 Naziv varijabila


u modelu


0,89342103 DBH, NB, DB, LB, CD, BA, ST


0,89333133 DBH, NB, DB, LB, CD, BA


0,89322410 DBH, NB, DB, LB, CD


a DBH = prsni promjer, NB = broj grana, DB = promjer grane,
LB = dužina grane, CD = promjer u krošnji,
BA = kut insercije grana, ST = pravnost.


** = Statistički signifikantno na nivou od 1%.


U Tabeli 6 dani su iznosi determinacionih koeficijenata (R2) za jednadžbe
7, 6 i 5 nezavisnih varijabila, te naziv tih varijabila. Vidljivo je da se




ŠUMARSKI LIST 10-11/1974 str. 9     <-- 9 -->        PDF

Tehnika rane selekcije varijabila sastoji se u tome da se pronađe najbolja
jednostavna regresiona jednadžba s jednom nezavisnom varijablom.
Nakon toga, u jednadžbu se istovremeno dodaje samo po jedna varijabla,
dok varijabile koje se nalaze u modelu nisu signifikantne na željenom nivou
signifikatnosti. To znači, da se ovim postupkom pronađe najbolja jednadžba
s određenim brojem varijabila koja zadovoljava. Red umetanja varijabila
određen je veličinom parcijalnog korelacionog koeficijenta kao mjere koja
određuje važnost pojedine nezavisne varijable. U tabeli 4 dani su podaci
za najbolju jednadžbu dobivenu ovom tehnikom u kojoj se nalazi pet nezavisnih
varijabila.


Tabela 4.
R2 — iznos, broj i naziv varijabila u jednadžbi dobiveni ranom selekcijom
varijabila3


Broj varijabila


R.2 — iznosi Naziv varijabila
u jednadžbi


**
5 DBH, NB, DB, LB, CD


0,89322410


a DBH = prsni promjer, NB = broj grana, DB = promjer grane,
LB = dužina grane, CD = promjer u krošnji,
** = Statistički signifikantno na nivou od 1%.


Prema tome »najbolja« jednadžba sa 5 varijabila odabrana ovom tehnikom
je:


Y = 90,1284 + 49,5018 DBH + 0,3276 NB — 38,2115 DB + 0,9764 LB +


+ 8,3325 CD (S. E. = 27,76)
Analiza varijance, regresioni koeficijenti (b) i ostali podaci za gornju
jednadžbu dani su u Tabeli 5. Determinacioni koeficijent je statistički signifikantan
na nivou od 1´%. Iz gornje jednadžbe isključene su dvije karakteristike
i to: kut insercije grana i pravnost stabala, budući da nisu statistički
signifikantne na nivou od 10%.


U Tabeli 1 specificirano je na stroju da najmanji broj varijabila u jednadžbi
treba biti pet (INCLUDE = 5;). Ostalih pet varijabila u modelu nisu
testirane.


Povratna eliminacija varijabila. Ova tehnika počinje s jednadžbom u
kojoj se nalaze sve nezavisne varijabile, reducirajući sukcesivno broj varijabila
u jednadžbi dok se ne odluči koju jednadžbu upotrijebiti. Ta tehnika
znači poboljšanje u odnosu na tehniku »sve postojeće kombinacije«, jer ne
ispituje sve kombinacije, već samo »najbolje« koje se sastoje od određenog
broja nezavisnih varijabila. Na bazi izračunatih parcijalnih F-iznosa isključuje
se ona varijabla koja ima manji F-iznos od prethodno uključene varijable
u model.