onsdag 5 mars 2014

Dikt och verklighet? Den (o)vetenskapliga basen för polisens trygghetsmätningsmetod

Polismyndigheter och kommuner har under en rad år använt sig av standardiserade trygghetsmätningar för att säga något om skillnader mellan olika kommuner eller stadsdelar avseende trygghet, samt för att kunna studera förändringar över tid (Exv Skåne, Kronoberg, Sollentuna, Haninge, Bromölla). Trygghetsmätningarna är enkäter där det ställs frågor om otrygghet, oro att utsättas för brott, utsatthet för brott, förekomst av ordningsstörningar samt förtroende för polisen. Svaren grupperas så att 0 är det bästa värde som kan nås, och 6 är det sämsta värdet som kan nås. Genomsnittet är satt till 2 på skalan från 0 till 6, och vilket värde som ges baseras på hur många procent i kommunen eller stadsdelen som angett ett visst svarsalternativ, t ex huruvida nedskräpning är ett problem eller huruvida att vistas ensam ute en sen kväll upplevs som otryggt. I Malmö har kommunen nyligen beslutat att byta ut denna trygghetsmätning mot en mer utförlig mätning genomförd av mina kollegor på den kriminologiska institutionen, något som jag diskuterat på bloggen tidigare.


Förra veckan kontaktades jag av en kollega på Malmö högskola som hade tänkt använda polisens trygghetsmätning som ett exempel på statistik i sin undervisning. Problemet var att han inte förstod hur statistiken hade använts efter att ha läst den tekniska rapporten, och det blev då ett något olämpligt exempel att använda. Jag gjorde själv ett försök, men misslyckades lika kapitalt med att förstå hur det hela hängde samman. Efter att ha ägnat åtskillig möda åt att fundera på saken landade jag i slutsatsen att den metod som angavs i den tekniska rapporten inte var den som hade använts (Se längst ner i denna post för ett mer utförligt resonemang kring vad jag byggde denna slutsats på). Metoden beskrivs på ett vetenskapligt sätt, och säger sig bygga på konfidensintervall med 95% signifikansnivå för respektive nivå från 0-6. Men konfidensintervallet för en och samma variabel bör alltid vara lika stort, och så är inte fallet när det gäller de olika nivåerna i trygghetsmätningen för det exempel som ges i den tekniska rapporten. Mer specifikt är intervallet för "nivå 1", dvs det näst bästa värdet som kan nås, alldeles för stort. Jag kontaktade det företag som gjort trygghetsmätningen, men de har bara fått specifikationerna av polisen och inte utvecklat metoden själva. Anställda från Skånepolisen som jag har pratat om detta med har inte kunnat svarat på mina frågor.  Rikspolisstyrelsen har över huvud taget inte svarat på mitt mail (27/2) i frågan, trots att jag uttryckligen begärde svar med diarienummer och namn på handläggare för mitt ärende (Uppdatering 26/3: Svar från RPS som inte hittar någon information om det hela).

Däremot fick jag tag på Kjell Elefalk som konstruerade måtten ursprungligen, då som anställd hos rikspolisstyrelsen. Han kommer numera inte riktigt ihåg hur det gick till, men eventuellt kan det ha varit så att 0-nivån, dvs det bästa värdet som kan fås, blev lite för stor för vad som ansågs passa, och därför ändrades helt enkelt intervallen så att 0-nivån blev mindre. En manuell justering av de intervall som används för att resultaten bättre ska spegla vad som anses vara passande innebär givetvis att det inte längre handlar om "konfidensintervall med 95% signifikansnivå", och att det är direkt bedrägligt att hävda att så är fallet. Det ger ett sken av en vetenskaplighet som i själva verket inte finns. Dessutom gör det bara den tekniska rapporten onödigt komplicerad. Ett mer korrekt, och betydligt mer lättförståeligt sätt att formulera den tekniska rapporten hade varit något i stil med: Hur många procent som motsvarar respektive värde på skalan 0-6 bestämde vi utifrån vad vi ville visa med den data som insamlades 2003.

Med detta sagt, vill jag dock poängtera att allt detta egentligen bara har en akademisk betydelse (pun intended). Den huvudsakliga effekten av detta torde vara att en del kommuner/stadsdelar som har betecknats som ganska trygga (1: "Inte alls påtagligt problem") egentligen borde ha betecknats som väldigt trygga (0: "Närmast obefintligt problem") om den beskrivna metoden hade följts. Det har ingen större betydelse för övergripande jämförelser mellan olika kommuner eller stadsdelar, eller för att studera förändringar av tid, vilket så vitt jag vet är de huvudsakliga användningsområdena för trygghetsmätningar. Även om den praktiska betydelsen av det hela är akademisk tycker jag dock att det är olyckligt när akademiskt språkbruk verkar missbrukas, i synnerhet eftersom det här är en metod som har använts i en rad olika myndigheter och som totalt omfattar minst 900 000 respondenter enligt en presentation från 2013. Det känns också uppseendeväckande att en metod som använts så många gånger av så många myndigheter och med så stort medialt genomslag kanske hela tiden har varit missvisande beskriven/felaktig utan att någon reagerat. Med det sagt finns såklart också möjligheten att det är jag som missförstått allt detta. Om så är fallet uppskattar jag kommentarer nedan eller per mail.



Utförligare resonemang kring metod i den tekniska rapporten
Den tekniska rapporten för Skåne 2012 (hittar inte på nätet, maila för pdf) använder sig av vetenskapliga begrepp som signifikansnivå och konfidensintervall för att förklara hur nivåerna skapats. Jag citerar här hela resonemanget från den tekniska rapporten:

Medelvärdet för samtliga 33 indikatorer från den största databearbetningen
(167.961 enkäter) som genomfördes i mars 2003 utgör basnivån i modellen och
benämns som ”nivå 2”. För några indikatorer gäller kvinnornas medelvärde
(88.425 enkätsvar) som bas vid större genusskillnader.
Nivå 1 beräknas genom att medelvärdets konfidensintervall nedåt (jämfört med
nivå 2) beräknas med en signifikansnivå om 95 procent. Nivå 0 nås genom en ny
beräkning nedåt av konfidensintervallet. Nivå 3 erhålls genom att medelvärdets
konfidensintervall uppåt (jämfört med nivå 2) beräknas med en signifikansnivå
om 95 procent. Nivå 4 beräknas med ett nytt intervall uppåt o.s.v. till nivå 6 nås.
(Teknisk rapport Trygghetsmätning Skåne Län 2012, sidan 7. Noterbart är att formuleringarna är identiska i den tekniska rapporten från Kronobergs län)

Den här beskrivningen är lite klurig att förstå vid en första anblick, men inte orimlig om jag nu förstått den rätt. Genomsnittet av antal procent per kommun/stadsdel som i undersökningen angett ett visst svar sätts till att motsvara 2 med 95% konfidensintervall, och därefter beräknas alla andra nivåer från 0-6 genom att lägga på nya konfidensintervall uppåt eller nedåt. Konfidensintervall är ett statistiskt mått som anger inom vilket intervall vi kan förvänta oss att få ett resultat om vi gör om samma undersökning en gång till. Det beräknas (för en normalfördelad variabel) genom att multiplicera en konstant (1.96 för 95% signifikansnivå) med roten ur kvadraten på standardavvikelse delat med antalet respondenter. Eftersom varken standardavvikelsen eller antalet respondenter förändras bör inte heller konfidensintervallet göra det. Men i det exempel som anges i den tekniska rapporten (för variabeln nedskräpning) är det angivna konfidensintervallet för nivå 1 på 13%-enheter medan det för nivå 2 till 5 är 7-8%-enheter.  Nivåerna 0 och 6 får helt enkelt motsvara "resten", men förutsatt att jag inte missförstått något här borde intervallet för 1 vara ca 20-28 istället för 15-28.


Nivå                              0           1           2           3           4           5     6
Konfidensintervaller    ≤ 14    15–28   29–36   37–45   46–54   55–63    ≥ 64

Det innebär i så fall att alla kommuner eller stadsdelar som fått ett värde mellan 15 och 20% som anser att nedskräpning är ett problem har givits en 1a på skalan när de borde ha fått en 0a. Det företag som genomfört undersökningen utifrån polisens instruktioner, Scandinfo,  har varit behjälpliga genom att lämna ut intervallen för andra variabler också, och mönstret verkar vara liknande för vissa variabler, men inte alla. Några exempel där intervallen påminner om exemplet ovan:
Bilarna kör för fort 1: 16%-enheter. Övriga 9%-enheter
Oroat sig för inbrott bostad 1: 17%-enheter.Övriga 8-9%-enheter
 
Några exempel som ser helt annorlunda ut:
Utsatt för fysisk våld 1: 2%-enheter. Övriga 3-7%-enheter.
Kvinnor som antastas 1: 6%-enheter. Övriga 5-8%-enheter.
Folk som bråkar och slåss utomhus 1. 8%-enheter. Övriga 7-9%-enheter.


Frågan är om det i vissa fall har varit faktiska konfidensintervall, som kanske avrundats lite vilket ger viss variation, medan det i andra fall är konfidensintervall för alla nivåer utom 1, och i ytterligare andra fall kanske helt manuella skalor. Exakt hur det hela har gått till är rimligen omöjligt att lista ut bara genom att studera resultaten, och frågan är om det över huvud taget är någon hos polisen som har svaret på den frågan. Jag har i resonemanget innan denna tekniska del valt att fokusera på det konstiga med nivå 1 som finns i exemplet i den tekniska rapporten, men som det verkar är det nog inte den enda konstigheten med allt detta.