2. Vjerojatnost kao frekvencija
Bacimo li čavlić, on može pasti tako da mu vrh gleda gore ili dolje (v. sliku). Ta dva ishoda nisu simetrična, pa ne možemo zaključiti da su jednako vjerojatni. Da bismo otkrili kolika je vjerojatnost ishoda G (vrh gleda gore) i D (vrh gleda dolje), moramo čavliće bacati više puta i iskustveno ustanoviti kolika je relativna frekvencija ishoda G, a kolika ishoda D.

Pr (G) ≈ relativna frekvencija događaja Pr (D) ≈ relativna frekvencija događaja D
U skladu s tim, mnogi vjerojatnost (približno) definiraju kao relativnu frekvenciju.
Vjerojatnost događaja A približno je jednaka relativnoj frekvenciji pojavljivanja toga događaja pri ponavljanju slučajnoga pokusa velik broj puta (n je ukupni broj pokusa, a n (A) je broj pokusa u kojima se desio A):
Pr(A) = n(A)/n.
Dakle, vjerojatnost događaja jest relativna frekvencija njegovog pojavljivanja u dugom nizu ponovljenih slučajnih pokusa. Ili kraće, vjerojatnost je „dugotrajna relativna frekvencija“. I ova definicija dokaze glavnih svojstava vjerojatnosti, tj. aksioma vjerojatnosti, čini vrlo lakima. Zato ih je i Kolmogorov koristio u “Empirijskoj dedukciji aksioma”, motivacijskom uvodu u svoju aksiomatizaciju teorije vjerojatnosti Kolmogorov 1933.
Naime, ako je n(A) broj događaja A koji su se dogodili u n ponovljenih slučajnih pokusa, ako je fn (A) = n(A)/n odgovarajuća relativna frekvencija i ako je fn (B|A) relativna frekvencija događaja B u slučajevima u kojima se dogodio A, onda očito vrijedi:

Naravno, ako je fn = Pr onda su (1) – (4) aksiomi vjerojatnosti:

Ali, ovdje postoji jedan veliki problem. Za koji n je fn vjerojatnost? Je li vjerojatnost glave određena frekvencijom glave u 100 bacanja kovanice tj. sa f100, je li određena sa 1000 bacanja, tj. sa f1000 ili s nekom drugom frekvencijom? Koliko dugo treba biti „dugotrajno“?
„Najduže dugotrajno“ moglo bi zaobići problem, a „najduže dugotrajno“ je beskonačno dugo. Stoga bismo mogli definirati:

No, ovo rješenje problema stvara nove probleme. Za razliku od konačnih frekvencija, granične frekvencije su neopažljive. Granična relativna frekvencija nema empirijski sadržaj. Uostalom, dva beskonačna niza, koji se ne razlikuju na početku, koliko god dug on bio, mogu imati različite granične relativne frekvencije. Dakle, ne postoji veza između graničnih frekvencija i konačnih opažljivih frekvencija. Naravno, mogla bi nas zanimati matematička teorija graničnih relativnih frekvencija, ako nas zanima matematički temelj vjerojatnosti, a ne nužno i njene primjene.
Dakle, istražimo matematiku vjerojatnosti, koja je definirana kao lim fn. Čini se povoljnim da ovako definirana vjerojatnost zadovoljava aksiome vjerojatnosti (jer ih zadovoljavaju sve frekvencije fn). Ali to je tako samo ako postoji lim fn! A lako je konstruirati primjere beskonačnih nizova s nepostojećim graničnim relativnim frekvencijama.
Evo primjera niza glava i pisama bez granične relativne frekvencije glava i pisama:
GP GP GGPP GGGGPPPP GGGGGGGGPPPPPPPP …
Niz počinje s GP GP i nakon toga imamo blokove s 2n G-ova i 2n P-ova, za svaki n > 0. Ako se zaustavimo nakon n-tog bloka, relativna frekvencija glava će biti 1/2 (jer svaki blok ima isti broj glava i pisama). Ako se zaustavimo u sredini n-tog bloka, relativna frekvencija glava će biti:

Dakle, relativna frekvencija pojavljivanja glava u ovom nizu oscilira između 1/2 i 2/3, tj. granična relativna frekvencija pojavljivanja glava u ovom nizu ne postoji.
Nadalje, čak i ako beskonačan niz glava i pisama ima graničnu relativnu frekvenciju, postoji beskonačno mnogo podnizova toga niza s kojom god graničnom relativnom frekvencijom želite (pored beskonačno mnogo njih bez granične frekvencije). To znači da ako na odgovarajući način zanemarite neka bacanja, dobivate što god odaberete (pa je bolje da budete sigurni da ste vidjeli sva bacanja).
Pretpostavimo, nadalje, da su rezultati ponovljenih eksperimenata “glava-pismo” raspoređeni u prostoru i vremenu na sljedeći način:

Glave su predstavljene bijelim točkama. Njihove koordinate su parcijalne sume niza:
(2,3) + (2,3) + (2,3) + (2,3) + (2,3) + …
Pisma su predstavljena crnim točkama. Njihove koordinate su parcijalne sume niza:
(1,1) + (2,1) + (2,2) + (2,1) + (2,2) + (2,1) + (2,2) + …
Ako ste vi bacali kovanicu, vaš vremenski niz glava i pisama je:
PPG PPG PPG …
Granična relativna frekvencija glava, u vremenskom nizu, je 1/3 i to je vaša procjena vjerojatnosti glave.
Ako ja na tlu pregledavam kovanice koje ste vi bacili pomičući se u smjeru osi s, moj prostorni niz glava i pisama izgleda ovako:
GP GP GP GP GP …
Granična relativna frekvencija glava, u prostornom nizu, je 1/2 i to je moja procjena vjerojatnosti glave.
Treba li jedan odgovor biti točan, a drugi pogrešan? Ako više volite jedan od njih, razmislite o Einsteinovoj specijalnoj relativnosti.
Kao rješenje ovih problema Mises 1936. predlaže isključivanje problematičnih nizova. Dakle, nizovi eksperimentalnih rezultata trebaju biti „slučajni“ (Mises ih je zvao „kolektivima“), a to znači da:
(1) trebaju imati granične relativne frekvencije i
(2) te granične relativne frekvencije trebaju ostati iste u svakom beskonačnom rekurzivnom podnizu danog niza (“rekurzivno” je pojašnjenje iz Church 1940.).
Gore opisani “niz glava i pisama bez graničnih relativnih frekvencija” isključen je zahtjevom (1). Podnizovi “s kojom god graničnom frekvencijom želite” isključeni su zahtjevom (2). Ipak, osjetljivost na prostor i vrijeme nije isključena. Pretpostavljam da gornji primjer, koji je danas bar donekle poznat, u Misesovo vrijeme to nije bio. Da jest, Mises bi gotovo sigurno (uz Churchovo pojašnjenje) takve anomalije isključio zahtjevom:
(3) granične relativne frekvencije trebaju ostati iste u svakom rekurzivnom preuređenju zadanog niza.
Ali nema objašnjenja zašto bi beskonačan niz ponovljenih pokusa bio „kolektiv“, tj. zašto bi beskonačan niz glava i pisama generiranih beskonačnim brojem slučajnih pokusa trebao zadovoljavati (1) – (3).
Daljnji problem za frekventiste je Kolmogorovljev aksiom kontinuiteta (koji je ekvivalentan teoremu o prebrojivoj aditivnosti). Kolmogorov 1933. smatra da je “gotovo nemoguće razjasniti njegovo empirijsko značenje, kao što je to učinjeno za [druge] aksiome”. Za Kolmogorova frekvencije fn imaju empirijsko značenje, dok ga granične frekvencije nemaju. One su matematička idealizacija. Uvriježeno je mišljenje da za nju ne vrijedi prebrojiva aditivnost. Kolmogorov je ipak postulira da bi tom dodatnom idealizacijom „pojednostavio svoju matematiku“.
Van Fraassen 1979, kao i mnogi drugi, nudi protuprimjer koji navodno dokazuje točnost uvriježenog mišljenja. To je beskonačna lutrija sa žetonima 1,2,3,4, … . Neka je Dj propozicija “izvučen je žeton j”. Pretpostavimo da u beskonačnom nizu izvlačenja (sa zamjenama) niti jedan od žetona nije izvučen beskonačno mnogo puta. Tada je Pr(Dj) (Dj) = 0, za svaki j pa iz toga slijedi da je
Pr(D1) + Pr(D2) + Pr(D3) + Pr(D4) + … = 0.
S druge strane
Pr(D1 ili D2 ili D3 ili D4 ili …) = 1,
jer je D1 ili D2 ili D3 ili D4 ili … nužni događaj. Stoga je
Pr(D1 ili D2 ili D3 ili D4 ili …) različito od Pr(D1) + Pr(D2) + Pr(D3) + Pr(D4) + … .
To prema Van Fraassenu i mnogim drugim autorima, pobija prebrojivu aditivnost.
Ali zašto bi Pr (D1) + Pr (D2) + Pr (D3) + Pr (D4) + … trebalo biti 0? To je neodređeni oblik

koji može biti bilo što, ako se još uvijek sjećate svog prvog kolegija infinitezimalnog računa. Zapravo, u ovom konkretnom slučaju lako je dokazati da taj zbroj jest 1, kao što i treba biti prema prebrojivoj aditivnosti.
Pretpostavimo, na primjer, da beskonačan slijed izvlačenja počinje ovako:
D4, D1, D1, D2, D4, D1, D7, D2 …
Odgovarajuće vjerojatnosti su:

i tako dalje.
Ako zbrojimo sve stupce dobivamo:
Pr (D1) + Pr (D2) + Pr (D3) + Pr (D4) + … =
lim ( 1/1, 1/2 + 1/2, 2/3 + 1/3, 2/4 + 1/4 + 1/4, …) = lim ( 1, 1, 1, 1, …) = 1
Izračun je isti za svaki niz izvlačenja. Naime, ako je Fj frekvencija od Dj u prvih n izvlačenja onda je zbroj vrijednosti u n-tom stupcu

, gdje je

ukupni broj izvlačenja u prvih n izvlačenja, koji je očito n pa je

Dakle, granične relativne frekvencije zadovoljavaju prebrojivu aditivnost. (Uočite da u dokazu nismo koristili zadnji stupac.)
Isti argument dokazuje prebrojivu aditivnost. Neka D1, D2, D3 … isključuju jedan drugog. Definirajmo D kao D1 ili D2 ili D3 ili … . Tada -D, D1, D2, D3 … također isključuju jedan drugog i prethodnim argumentom “zbrajanja po stupcima” (usp. napomenu o ne korištenju zadnjega stupca) imamo
Pr (-D) + Pr (D1) + Pr (D2) + Pr (D3) + … = lim (1, 1, 1, 1 …) = 1
Iz toga slijedi da je
Pr (-D ili D) = Pr (-D) + Pr (D) = 1 = Pr (-D) + Pr (D1) + Pr (D2) + Pr (D3) + … tj.
Pr (D) = Pr (D1) + Pr (D2) + Pr (D3) + … .
Konačni je zaključak da granične relativne frekvencije zadovoljavaju aksiome vjerojatnosti (1) – (4) (što je dobro poznato), a čak zadovoljavaju i prebrojivu aditivnost (što je novi rezultat). Stoga granične relativne frekvencije nemaju problema s aksiomima vjerojatnosti. Njihov problem je što možda ne postoje, tj. beskonačan niz eksperimentalnih rezultata možda i nema graničnu relativnu frekvenciju.
Spomenimo na kraju da je sukob frekventista s jedne strane te klasičara i bejesovaca s druge, star više stoljeća. Počeo je kao jedan je od aspekta sukoba britanskih empirista i kontinentalnih racionalista. John Stuart Mill koji je matematiku i logiku (bila ona induktivna ili deduktivna) opravdavao iskustveno, prirodno je usvojio frekvencijski pogled na vjerojatnost. U prvom izdanju svoje knjige Mill 1843. on ismijava Laplaceove vjerojatnosti propozicija, koje Laplace shvaća kao stupnjeve njihove plauzibilnosti (i uz pomoć kojih opravdava klasični pojam vjerojatnosti). Ali tri godine kasnije, u drugom izdanju, Mill mijenja stav i postaje bejesovac. Naime, astronom John Herschel objasnio mu je da nije razumio Laplacea, ali ga je i upozorio na nekonzistentnosti frekventizma. John Venn je pokušao sistematski izložiti frekventistički pogled u svojoj knjizi Venn 1866. U njoj napada Laplaceove vjerojatnosti i njihovog britanskog proponenta Augustusa De Morgana, ali suočen s problemima identificiranja vjerojatnosti s relativnim frekvencijama ne uspijeva naći konzistentni temelj za svoj frekventistički stav (kao ni Mises 70 godina kasnije).
Kontinentalci Gottfried Wilhelm Leibniz, Jacob Bernoulli, Pierre-Simon Laplace i drugi ne identificiraju vjerojatnosti s frekvencijama. Za njih je vjerojatnost racionalni stupanj uvjerenja. No, zanima ih koja je formalna veza između frekvencija i tako shvaćenih vjerojatnosti. Bernoulli je uspio odgovoriti na dio tog pitanja, sa svojim zakonom velikih brojeva koji je objavio u knjizi „Ars Conjectandi“: Uz odabir dovoljno dugog niza pokusa, relativna frekvencija ishoda aproksimira vjerojatnost tog ishoda s kojom god želite preciznošću. To je Bernoulli zvao svojim zlatnim teoremom. Na primjer, ako je vjerojatnost ishoda 3/5, željeni interval aproksimacije je (29/50, 31/50), a željena vjerojatnost da frekvencija padne u taj interval je 1000/1001, onda zlatni teorem kaže da se to postiže ako je broj pokušaja veći od 25550.
Motivacija za zlatni teorem bila je Bernoullijeva želja da iz empirijskih podataka određuje vjerojatnosti, jer je razumio da u mnogim područjima nije moguće odrediti vjerojatnosti na klasičan način, prebrajanjem jednako vjerojatnih slučajeva. Želio je iz velikog broja pokusa i relativne frekvencije uspjeha u tim pokusima, odrediti kolika je vjerojatnost uspjeha u pojedinom pokusu. Evidentno je da Bernoulli nije riješio taj problem. Riješio je smjer od vjerojatnosti k frekvencijama, ali ne i smjer od frekvencija k vjerojatnosti. Ipak, Bernoulli je vjerovao da je riješio problem prijelaza od frekvencija k vjerojatnosti pozivajući se na sljedeći (pogrešni) argument. Ako je uz dovoljno veliki broj pokusa relativna frekvencija približno jednaka vjerojatnosti, onda je uz taj broj pokusa i vjerojatnost približno jednaka relativnoj frekvenciji pa je problem zaključivanja od frekvencija k vjerojatnosti riješen.
Taj argument zvuči uvjerljivo: ako je

onda je

No, pokušate li ga precizirati argument se raspada. Naime, aproksimacija od

ima po volji veliku vjerojatnost za dovoljno velike n, pod uvjetom da je p vjerojatnost uspjeha u svakom pojedinom pokusu (to je zlatni teorem). To ne znači da aproksimacija od

ima po volji veliku vjerojatnost za dovoljno velike n, pod uvjetom da je fn relativna frekvencija uspjeha u n ponovljenih pokusa. Iako su

ekvivalentne tvrdnje, uvjeti pod kojima procjenjujemo njihove vjerojatnosti su različiti pa su to i njihove vjerojatnosti. Na primjer, kada bi druga tvrdnja bila točna onda bi frekvencije nužno konvergirale prema graničnoj vrijednosti p, za što nisu dani nikakvi argumenti.
„Argument“ da zakon velikih brojeva omogućava prijelaz od relativnih frekvencija na vjerojatnost nevjerojatno je žilav. Preživio je do danas u formi Fisherovog p-testa, o čemu će još biti riječi. Sam zaključak tog argumenta (bez ozbiljnije rasprave o samom argumentu) ponavljali su vrlo ugledni teoretičari vjerojatnosti 20. stoljeća, uključujući Émilea Borela, Paula Lévyja, Andreja Markova i Andreja Kolmogorova. Kako je to bilo moguće? Diaconis & Skyrms 2018. misle da je to bila strategija ignoriranja problema vezanih uz interpretaciju pojma vjerojatnosti, kojom se zapravo izbjegavao ozbiljan pokušaj suočavanja s tim problemima.
Primijetimo da cijela ova rasprava (i sam zakon velikih brojeva) ima smisla samo za one koji pretpostavljaju da postoji vjerojatnost uspjeha u jednom pokusu, što su klasičari i bejesovci. Samo se oni mogu pitati je li tu vjerojatnost moguće aproksimirati relativnim frekvencijama ponavljanih pokusa. Ako ste frekventist za kojeg vjerojatnost jest granična relativna frekvencija ponavljanih pokusa onda je izlišno pitati se je li graničnu relativnu frekvenciju ponavljanih pokusa moguće aproksimirati relativnim frekvencijama ponavljanih pokusa (a zakon velikih brojeva postaje trivijalan).
Trebate biti prijavljeni kako bi objavili komentar.