Meningsmålinger og usikkerhed
February 5th 2008 01:16 am
Det er pinligt at høre journalister overfortolke små udsving i meningsmålinger. Udsagn som “Venstre går markant frem med 2 procentpoint,” giver ingen mening, da usikkerheden på Venstres andel af stemmerne i en typisk meningsmåling er op imod 3 %-point.
Men hvad er usikkerheden på en meningsmåling egentlig? Hvis ikke andet er angivet, vil usikkerheden ofte være synonym med 95%-konfidensintervallet. Altså vil den reelle tilslutning til partiet med 95% sandsynlighed ligge indenfor det målte +/- usikkerheden.
På dets politiske index skriver Meganfon om usikkerheden: “Resultaterne i undersøgelsen må påregnes en vis statistisk usikkerhed. For de enkelte observationer gælder, at de faktiske procenttal med 95% sikkerhed befinder sig indenfor en gennemsnitlig margin på ca. +/-2% af de observerede procenttal.”
Mange, ja selv agtværdige professorer i statskundskab, misforstår ovenstående og tror, at usikkerheden på målingen er 2% – uanset tilslutning. Altså hvis Enhedslisten får 2,3% af stemmerne, så betyder det, at tilslutningen ligger mellem 0,3% og 4,3%, og hvis Venstre får 28,0% af stemmerne, så betyder det, at tilslutningen ligger mellem 26,0% og 30,0%. Men de mange overser, at der står “gennemsnitlig margin“.
I virkeligheden er usikkerheden (95% konfidensintervallet) givet ved:
u = 1,96*sqrt(p*(1-p)/N)
hvor u er usikkerheden, p er den opnåede stemmeandel i målingen, N er antallet af respondenter (og sqrt = kvadratrod). Ønsker man kun et 90%-konfidensinterval, kan man skifte 1,96 ud med 1,66. Læs f.eks. denne gennemgang på journalisthøjskolens hjemmeside.
En typisk meningsmåling har 1.000 respodenter. Bruges dette tal fås følgende usikkerheder som funktion af stemmeandel:
Tilslutning – 95%-konfidensinterval
1% – 0,6%
2% – 0,9%
3% – 1,1%
5% – 1,4%
7% – 1,6%
10% – 1,9%
15% – 2,2%
20% – 2,5%
25% – 2,7%
30% – 2,8%
Jeg kan egentlig ikke forstå, hvorfor analyseinstitutterne ikke bare angiver 95%-konfidensintervallet i parentes efter partiets tilslutning. Hvor svært kan det være? Så slipper man for overfortolkende journalister og professorer i statskundskab, der tager fejl af usikkerhedsangivelsen.
Ovenstående beregninger og formel angiver, så vidt jeg kan se, kun den statitiske usikkerhed. Metodeusikkerheden er ikke medregnet. De angivne tilslutninger i meningsmålingerne svarer ikke præcist til det, respodenterne har svaret. F.eks. har man erfaring for, at ikke alle vil sige i telefonen, at de stemmer Dansk Folkeparti, hvorfor man sjusser en større tilslutning end det, der er svaret. Ligeledes sjusser man udfra forholdet mellem mand/kvinde og demografiske forhold. Det skal også nævnes, at antallet af respodenter, N, i ovenstående formel er dem, der rent faktisk stemmer på et parti. Dem, der svarer “ved ikke”, indgår ikke i N. Hvis “ved ikke” stemmerne ikke fordeler sig jævnt, giver det en større usikkerhed på tilslutningen. Alt i alt skal de ovenfor beregnede 95%-konfidensintervaller derfor ses som minimum-usikkerheder.
Det skal til slut siges, at jeg på ingen måde er ekspert i statistik. Jeg har kun haft et kursus i det i forbindelse med mit sidefag i matematik, og det ligger tilbage i 2001 – eller deromkring. Så hvis jeg skriver noget sludder i ovenstående, så skriv endelig, så jeg kan få rettet fejlen.
Kimpo responded on 05 Feb 2008 at 19:04 #
Det er endnu længere siden jeg havde matematikfag på uni – kan ikke huske meget, men du har vel ikke et link til hvordan man har beregnet z-værdien? Der står blot at den kan slås op i tabeller, og jaae, en søgning på dansk gav ikke noget brugbart..
(Selvfølgelig burde man kunne sige sig selv at usikkerheden ikke er samme procentpoint uanset resultatet.)
Morten Sørensen responded on 05 Feb 2008 at 22:35 #
z-værdien kommer direkte fra normalfordelingen:
http://en.wikipedia.org/wiki/Normal_distribution
Hvilket i øvrigt fjerner min sidste tvivl om, hvorvidt den angivne usikkerhed tager hensyn til andet end bare den statistiske usikkerhed. Det gør den ikke. Den tager ikke hensyn til de beskrevne bias.
Martin Rannje responded on 07 Feb 2008 at 18:13 #
Jeg er ikke meningsmålingsekspert men jeg har undervist i statistik og spørgeskemaundersøgelser på bachelor-delen på statskundskab, og vi beskæftigede os en hel del med meningsmålinger. Og lige præcis fortolkningen (el. misfortolkningen) af meningsmålinger er noget af det som nok kan gå fag-folk mest på. Efter min bedste overbevisning er det korrekt nok det du skriver, men jeg må indrømme at jeg ikke er helt sikker på den usikkerhed som PKK omtaler der er forbundet med institutternes metode til at estimere de respektive partiers vælgertilslutning. Statistisk usikkerhed er også forbundet med hvilken stikprøvemetode man benytter – hvis der ikke er tale om helt tilfældigt udtræk, kan usikkerheden være anderledes. Og derudover kan de naturligvis benytte diverse vægte inde på instituttet som man ikke kan se på det færdige resultat. Men overordnet set er det uanset hvad en væsentlig pointe, som en del vidst glemmer/ikke ved, at usikkerheden er afhængig af hvor stor en andel af vælgerne der estimeres at tilslutte sig det enkelte parti (hvilket sådan set også er logisk nok).
Mvh
Morten Sørensen responded on 08 Feb 2008 at 10:24 #
Min tvivl er forsvundet. Den usikkerhed, jeg angiver, er kun “ramdom sampling error”. Det er simpelthen 95% konfidensintervallet for en normalfordeling.
Hertil skal så lægges den usikkerhed, der ligger på forskellige bias. De skal formentlig lægges sammen ved at tage root mean square.
Men på trods af det så opgiver analyseinstitutterne kun “random sampling error”, som det ses af linket til undersøgelsen fra Greens Analyseinstitut.
Jeg har regnet efter, og det opgivne konfedensinterval i linket er beregnet efter formlen: u = 1,96*sqrt(p*(1-p)/N).
Med andre ord så medregner analyseinstitutterne ikke usikkerheden på de justeringer, de laver på de indsamlede data.
kresten roland johansen responded on 07 Aug 2009 at 10:09 #
Enig i det du skriver Morten, bortset fra, at du overser, at analyseinstitutterne faktisk forbedrer deres stikprøvedata vha. de vægtninger, de foretager (ift. køn, alder, bopæl og stemme ved seneste valg).
På den måde undgår de de store skæverter, som simpelt tilfældigt udtrukne stikprøver indimellem vil give.
Hvis du ser på, hvor godt de faktisk rammer op til valgene, er det også tydeligt, at de klarer sig bedre, end man egentlig burde forvente ud fra din beregnede usikkerhed.
Der hvor de for alvor har problemer, er når folk svarer uærligt (fx. DF-stemmer) – og så er der selvfølgelig tidsfaktoren (altså at folk kan nå at ombestemme sig, fra de kontaktes, og til de stemmer).
Morten Sørensen responded on 09 Aug 2009 at 00:31 #
Hej Kresten
Tak for kommentaren.
Nej, du tager fejl. Den usikkerhed, jeg angiver, er den rent matematiske/statistiske usikkerhed, der altid vil være ved en tilfældig udvælgelse. Den usikkerhed kan du ikke slippe af med.
Oven i denne usikkerhed kommer så metodeusikkerheden, som analyseinstitutterne prøver at gøre så lille så muligt ved at korrigere, som du beskriver. Prøv læs linket til Journalisthøjskolens gennemgang sammen med linket til Wikipedia. Den usikkerhed, jeg angiver formlen for, er den mindst opnåelige.
(Jeg har i øvrigt ikke overset de vægtninger, som analyseinstitutterne foretager, i mit indlæg. Jeg skriver ganske kort om dem i mit indlæg og nævner helt specifikt problemstillingen med DF.)
Jeg forstår ikke, hvad du mener med, at analyseinstitutterne rammer bedre end man burde forvente? Hvis usikkerheden er 2%-point, så betyder det jo, at i 95% af tilfældende vil den sande værdi være mindre end 2%-point væk fra meningsmålingens værdi. Så ja det er helt efter bogen, at meningsmålingerne normalvis er tættere på det rigtige resultat end usikkerheden.
kresten roland johansen responded on 09 Aug 2009 at 19:35 #
Hej Morten
Jeg havde overset, at du nævner det med vægtning – beklager.
Og ja, det er efter bogen, at institutterne typisk befinder sig et sted inden for intervallet +/- 0-2%-point i et givent tilfælde, men det er slående, HVOR tæt de rent faktisk rammer på fx. Socialdemokraterne ved de seneste valg.
Forklaringen er, efter min bedste overbevisning, at institutterne udnytter den statistiske afhængighed mellem de nævnte variable – særligt afhængigheden mellem stemme ved seneste valg og stemme ved kommende valg – og dermed slår de i praksis den matematiske usikkerhed, der knytter sig til en simpel tilfældig udtrækning, hvor alle har lige stor chance for at blive udtrukket.
Det svarer jo lidt til at lave en stratificeret udvælgelse. Herom skriver Søren Risbjerg (førende valgforsker fra Århus Universitet) følgende i Politica bind 27 (95):
Det er en udbredt misforståelse, at en simpel tilfældig stikprøve er den bedste form for udvælgelse. Faktisk får man med den samme stikprøvestørrelse i reglen større sikkerhed, dvs. mindre fejlmargen, med stratificeret tilfældig udvælgelse (se for eksempel Mortensen, 1994: 217-241).
Så nej, jeg mener nu stadig, at jeg har ret.
kresten roland johansen responded on 10 Aug 2009 at 09:17 #
Her er dokumentation for, hvad jeg mener med, at institutterne rammer liste A overraskende godt ved seneste valg:
Landsresultat liste A 14-11-2007 25,5
Seneste meningsmåling
Megafon/TV 2 12-11-2007 25,2
Catinét/Ritzau 12-11-2007 25,8
Synovate-Vilstrup/Politiken 13-11-2007 26,3
Rambøll/JP 12-11-2007 25,8
Sentio 12-11-2007 25,4
Epinion/DR 12-11-2007 25,3
Gallup/Berling. 12-11-2007 25,5
Greens/Børsen 12-11-2007 24,9
Altinget 25,5
Typisk stikprøvestørrelse: 1100
Matematisk usikkerhed ved n=1100 og andel =25,5%:
ca +/- 2,6%-point.
Dertil skal man lægge din nævnte usikkerhed på diverse bias – som jeg i øvrigt fuldt ud anerkender.
Morten Sørensen responded on 10 Aug 2009 at 21:34 #
Hej Kresten
Mange tak for din informative uddybning. Det ser ud til, at jeg var for skråsikker, og at du har ret.
Det er meget interessant, hvis man kan med efterstratificering kan få mindre usikkerheder.
Ja, man må give institutterne ved valget 2007, at de har ramt rigtig godt. Dog vil jeg umiddelbart mene, at meningsmålingernes afvigelser fra det sande resultat vil være normalfordelt om det sande resultat, hvorfor de små afvigelser måske alligevel ikke er ekstraordinære små.
Ved du, om det er generelt, de rammer ekstra godt ved liste A? I givet fald kunne det jo tyde på, at der er nogle afhængigheder, mellem hvad man stemte på sidste gang og denne gang, der er stærkere ved socialdemokraterne end de andre partier.
kresten roland johansen responded on 10 Aug 2009 at 22:40 #
Selv tak. Det er mit bedste bud på en forklaring, men jeg kunne alligevel godt tænke mig, at få argumentationen testet blandt hard core statistikere – gerne nogen, der arbejder med det her til daglig.
Godt spørgsmål, om meningsmålingernes afvigelser er normalfordelte om det sande resultat. Jeg ville være tilbøjelig til at svare nej. Jeg har selv engang lært, at det sande resultat med lige stor sandsynlighed (de typiske 95%) kan ligge inden for hele usikkerhedsintervallet – men jeg er ikke sikker.
Mht. hvor godt de rammer partierne: Det er i hvert fald tydeligt, at de rammer meget mere svingende på fx. Dansk Folkeparti (i 2007), som jo også fungerer som protestparti for nogle vælgere.
Jeg ved ikke, om liste A udmærker sig med specielt trofaste vælgere, hvis man ser over en række valg, men det er nærliggende at tro, at A og V er (eller måske snarere har været) blandt de mest stabile.
Morten Sørensen responded on 12 Aug 2009 at 07:18 #
M.h.t. om meningsmålingernes afvigelser er normalfordelte om det sande resultat, så prøv se følgende afsnit på Wikipedia: http://en.wikipedia.org/wiki/Normal_distribution#Standard_deviation_and_confidence_intervals
68% vil ligge indenfor 1 sigma, 95% indenfor 2 sigma o.s.v., så det er mere sandsynligt, at meningsmålingen ligger tæt på den sande værdi end længere væk fra. Bruger jeg formlerne fra linket, så kommer jeg frem til, at 45% af meningsmålingerne i dit eksempel skal ligge indenfor 0,8 procent-point fra det sande resultat. så ja, det er stadigvæk godt ramt, at 9 ud af 9 meningsmålinger ligger mindre end 0,8 procent-point væk fra.
kresten roland johansen responded on 20 Aug 2009 at 14:07 #
Jeg må nok give dig ret 🙂
Jeg kan ikke finde på nogen fornuftige indvendinger, og intuitivt giver det bestemt også god mening.