Evo jednog slučaja Simpsonovog paradoksa koji nikoga neće zbuniti, a istoga je tipa kao „Berkeley diskriminacija“ koja mnoge zbunjuje:

Srednja škola ima 10 izvrsnih i 100 prosječnih učenika.

9 izvrsnih i 1 prosječni učenik prijave se na najbolje A-Sveučilište i primljen bude samo 1 izvrsni učenik.

99 prosječnih i 1 izvrstan učenik prijave se na trećerazredno C-Sveučilište i svi budu primljeni.

 

               PRIMLJENO

IZVRSNIH

                 PRIMLJENO

PROSJEČNIH

A-SVEUČILIŠTE                       1/9                        0/1
C-SVEUČILIŠTE                       1/1                     99/99
       Ukupno:                      2/10                    99/100

 

Primljeno je 99% prosječnih učenika i samo 20% izvrsnih. Znači li to da su izvrsni učenici diskriminirani?

Naravno da ne znači. Radi se samo o tome da su izvrsni odabrali teži put na kojem ih je više otpalo.  To je svima jasno.

Nadalje, ljudima je iskustveno postalo jasno da politički kandidat koji ukupno ima manje glasova može ipak dobiti izbore jer je u većini izbornih jedinica (ili čak u svakoj izbornoj jedinici) imao većinu. To se desilo Goreu protiv Busha i svakodnevno se dešava u mnogim parlamentarnim izborima širom svijeta.

Dakle, mogućnost da u svim subpopulacijama neke populacije nešto vrijedi, a da u ukupnoj populaciji to isto ne vrijedi, činjenica je koja katkada zbunjuje a katkada ne.

U ukupnoj populaciji učenika izvrsni su prošli lošije od prosječnih iako u obje subpopulacije (onih koji su se prijavili na A-Sveučilište i onih koji su se prijavili na C-Sveučilište) to nije istina.

To nikoga ne zbunjuje i ovdje je istina očito sadržana u subpopulacijama, a ne u ukupnoj populaciji.

Poruka je da ne smijemo „miješati kruške i jabuke“. Ako nešto vrijedi i za kruške i za jabuke nije nužno da vrijedi i za obje voćke. Zato statističari često upozoravaju da je opasno spajati raznorodne podatke te iz toga spoja nešto zaključivati.

No, često nije jasno što su raznorodni podaci, a opasnost vreba i iz drugog smjera. Populaciju u kojoj nešto vrijedi moguće je podijeliti na subpopulacije u kojima to više ne vrijedi, te njih proglasiti „kruškama i jabukama koje ne valja mješati“.

Na primjer, političke stranke izborno tijelo često dijele na izborne jedinice u kojima će imati većinu iako je ukupno nemaju.

No, evo jednog jednostavnijeg primjera:

Gradska bolnica od 1000 slučajeva neke bolesti uspješno izliječi njih 900 dok ih državna bolnica uspješno izliječi 800 od 1000. U kojoj biste se bolnici radije liječili (od te bolesti)?

Ako ste se odlučili za gradsku bolnicu možda će vas pokolebati razdioba bolesnika na „tipične“ i „atipične“ uz koju statistika izlječenja izgleda ovako:

 

                IZLIJEČENI

U GRADSKOJ

                   IZLIJEČENI

U DRŽAVNOJ

                TIPIČNI              870/900 = 97%              590/600 = 98%
                ATIPIČNI                30/100 = 30%              210/400 = 55%
                Ukupno:             900/1000 = 90%            800/1000 = 80%

 

Ukratko, u državnoj se bolnici uspješnije oporavljaju i „tipični“ i „atipični“ bolesnici ,dok se u gradskoj bolnici uspješnije oporavljaju bolesnici (bez daljnje klasifikacije).

Za koju se bolnicu sada opredjeljujete?

Za razumnu odluku nisu dovoljni sami podaci. Morate nešto znati o „tipičnim“ i „atipičnim“ bolesnicima.

Ako su „tipični“ bolesnici zapravo lakši slučajevi koji se spontano oporavljaju i bez bolničkog tretmana, a „atipični“ oni koji se bez bolničkog tretmana ne bi oporavili, onda istina očito leži u subpopulacijama i trebate preferirati državnu bolnicu.

Ako su „tipični“ bolesnici  subpopulacija kreirana od doktora državne bolnice s nakanom da se ta bolnica pokaže uspješnijom (a takve subpopulacije matematički je uvijek moguće kreirati) onda trebate preferirati gradsku bolnicu.

Da biste mogli odlučiti gdje je istina (u populaciji ili u subpopulacijama) morate razumijeti uzročno posljedične veze među veličinama koje su opisane vašim podacima. Isti podaci (u gornjoj tablici) opisuju obje vrste „tipičnih“ bolesnika, a ovisno o kojoj se vrsti radi iz njih izvodimo dijametralno suprotne zaključke.

Sami podaci, makar bili i veliki podaci (poznatiji kao big data) nisu dovoljni.

 

2 responses »

  1. Nijedan ozbiljan statistički model ne uzima u obzir samo razlike u proporcijama ili postocima bez kontroliranja za ostale faktore. “Uvjetovanost je srce statistike”. Upravo se najveća pažnja u svakom empirijskom modelu pridaje problemima endogenosti, to jest mogućnosti da veći učinak pojedinog ishoda (izlječenja u bolnici) može biti rezultat “ostalih” varijabli (“kvalitete” bolesti primejrice).

    Uglavnom, ovo je osnovni problem svake empirije, to se zna, ali nije n aodmet ponoviti.

Odgovori

Please log in using one of these methods to post your comment:

WordPress.com Logo

Ovaj komentar pišete koristeći vaš WordPress.com račun. Odjava / Izmijeni )

Twitter picture

Ovaj komentar pišete koristeći vaš Twitter račun. Odjava / Izmijeni )

Facebook slika

Ovaj komentar pišete koristeći vaš Facebook račun. Odjava / Izmijeni )

Google+ photo

Ovaj komentar pišete koristeći vaš Google+ račun. Odjava / Izmijeni )

Spajanje na %s