Billigere folkeafstemninger med brug af statistik

Folkeafstemninger er dyre: afstemningen om EUs patentdomstol kostede et sted mellem 125 og 145 millioner kroner. Hvis man, som vi, vil have at folkeafstemningen som ske hyppigere som del af den demokratiske proces, så giver det mening at se på om de kan gøres billigere. Den smarte løsning er at lave et reelt online demokrati, men den løsning synes langt ude i fremtiden. Derfor må man se sig efter et alternativ.

Sampling demokrati

Når analyseinstitutter skal finde ud af hvad danskerne mener om et givent emne, så spørger de som regel ca. 1000 personer. I kontrast, når man går til valg, spørger man hele befolkningen, eller rettere, man spørger de 4.1 millioner som har stemmeret. Formålet er i begge tilfælde det samme: at finde ud af hvad befolkningen mener. Estimaterne som man får via analyseinstitutterne kan være forkerte, hvilket blandt andet skyldes at man bruger sampling (udtrækning). I mange demokratiske beslutninger vil man gerne have en større sikkerhed end fx ±2%, og det kan man nemt opnå ved blot at udtrække flere personer. Eksempelvis kunne man som start nøjes med at udtrække 10,000 tilfældigt udvalgte personer (via CPR). Det er ca. 0.2% af dem med stemmeret. Det ville give en ret beskeden statistisk usikkerhed. Hvis det drejer sig om den simple situation hvor man skal stemme JA/NEJ til et forslag, så kan man udregne et eksempel med R således:

# Sample 10000 fra en population med 48% chance for JA
set.seed(1)
x = sample(c(1, 0), size = 10000, replace = T, prob = c(.48, .52))

# Resultater
prop.test(x = sum(x), length(x))
##
##    1-sample proportions test with continuity correction
##
## data:  sum(x) out of length(x), null probability 0.5
## X-squared = 23.717, df = 1, p-value = 1.116e-06
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4657732 0.4854457
## sample estimates:
##      p 
## 0.4756

I eksemplet antager vi at der i befolkningen er 48% som ville stemme JA, og 52% som ville stemme NEJ. Vi udvælger 10,000 tilfældige personer og lader dem stemme. De stemte 47.56% JA, hvilket er ret tæt på 48%. Hvad er chancen for at måle så meget forkert at man får et tal som er over 50% og dermed ændrer beslutningen? 0.0001116%. Det er en usikkerhed man godt kan leve med.

I tættere afstemninger kan usikkerheden blive for stor. Hvis nu at der i befolkningen var næsten total splittelse, og andelen af JA ville-stemmere er 49.5%, hvor sikre kunne vi så være når vi har spurgt 10,000 personer?

# Sample 10000 fra en population med 49.5% chance for JA
set.seed(1)
x = sample(c(1, 0), size = 10000, replace = T, prob = c(.495, .505))

# resultater
prop.test(x = sum(x), length(x))
##
## 1-sample proportions test with continuity correction
##
## data:  sum(x) out of length(x), null probability 0.5
## -squared = 3.5721, df = 1, p-value = 0.05876
## alternative hypothesis: true p is not equal to 0.5
## 5 percent confidence interval:
## 0.4806575 0.5003498
## sample estimates:
##     p 
## .4905

I vores hypotetiske afstemning stemte 49.05% JA. Vi kan endvidere se at der er ca. 6% chance for at befolkningen faktisk var over 50% givet de data man så. Det er ikke en sandsynlighed som er til at leve med i et demokrati. Løsningen er derimod enkel, vi udvælger blot nogle flere mennesker, fx 50,000:

# Sample 50000 fra en population med 49.5% chance for JA
set.seed(1)
x = sample(c(1, 0), size = 50000, replace = T, prob = c(.495, .505))

# resultater
prop.test(x = sum(x), length(x))
##
## 1-sample proportions test with continuity correction
##
## data:  sum(x) out of length(x), null probability 0.5
## -squared = 4.8216, df = 1, p-value = 0.0281
## alternative hypothesis: true p is not equal to 0.5
## 5 percent confidence interval:
## 0.4906881 0.4994726
## sample estimates:
##      p 
## .49508

Vores analyse viser dog, at vi stadig ikke er ret sikre for sandsynligheden for at have målt forkert nok til at beslutningen ændrer sig er nu kun faldet til ca. 3%. Men man kan blot blive ved med at forøge antallet af personer indtil at sandsynligheden for at have målt forkert kommer under en acceptabel fejlrate, fx <0.1% (1 ud af 1000). I dette tilfælde kan det lade sig gøre med ca. 100,000 personer.

Selv hvis man gør brug af 100,000 personer til nogle afstemninger, så er det stadig en massiv besparelse: det er ca. 2% af alle personer med stemmeret.

Sampling demokrati

Published by Emil