fredag 14 december 2018

Hur bra är egentligen polisdata rent geografiskt?

Igår kom min senaste studie ut i tidskriften Nordisk politiforskning (Open access, vem som helst kan läsa), och min vana trogen ska jag nu försöka skriva ett kort blogginlägg för att sammanfatta studien.

Mycket av min forskning, och flera av de polisiära arbetsmetoder som forskare varit mest intresserade av på senare år, är beroende av att identifiera var brott begås. Det görs ofta genom att använda brottsanmälningar, och utifrån den adress som där finns angiven "geokoda" brotten, det vill säga placera ut dom på en karta. Flera studier har engagerat sig i frågan om själva geokodningen, hur bra den fungerar, samt hur stor andel av brotten som måste geokodas korrekt för att det ska gå att göra rimliga analyser på datan. Men, inga studier har egentligen funderat över frågan om huruvida den där adressen vi geokodar egentligen ger en korrekt bild av var brottet är begått. Det är vad min studie försöker göra.

Det finns två problem här. Det första problemet är att vi inte alltid vet exakt var brottet har begåtts. Tänk er exempelvis någon som blivit rånad utomhus en sen natt. När polisanmälan görs kommer denna sällan att säga "Storgatan 23B", utan kanske snarare "På möllan, rätt nära bergsgatan", eller "Utanför Högstadieskolan", eller "typ i början av Storgatan". En osäkerhet finns inbyggd i systemet, för denna typ av brott, och den osäkerheten finns inte med i dom platser på en karta där brottet sedan kommer att placeras. Ofta kommer brott i den typen av situationer att placeras lite fel, men det är svårt att veta exakt hur stort felet är.
Ett annat problem är att de adresser som ska geokodas normalt sett utgörs av hus. Men brott begås även utanför hus. Brotten kommer då att tillskrivas ett hus (en adress) i närheten. Ibland finns det inget hus riktigt i närheten, och brottet kommer då att tillskrivas någon annan plats (förhoppningsvis i närheten), det kan gälla vägar där det inte finns adresser (motorvägar exv, eller sträckor av en väg som går längs med en åker), och brotten tilldelas då ofta en "adress" ungefär i mitten av vägsträckan. Det gäller även för parker och torg, där brott ibland tilldelas en adress i närheten, ibland tilldelas en plats i mitten av parken/torget.

Det är rimligt att anta att dessa problem påverkar våra analyser av brottslighet, men det är inte helt lätt att mäta hur stor denna påverkan är. I min studie drar jag nytta av att räddningstjänsten registrerar platser för var anlagda bränder tar plats utan att behöva utgå från adresser och jämför dessa med polisdata över bilbränder för att få en idé om hur stor skillnaden är. Det finns säkerligen felkällor med räddningstjänstens data också, men det är troligt att den är mer korrekt än polisdatan, och vi kan därmed utgå från den för att få en idé om problemets storlek. Eftersom jag utgår från bilbränder är det första av de två problem jag nämner ovan dessutom konstanthållet. Det utbrända bilvraket är lätt att identifiera platsen för, och vi kommer sällan vara i en situation där vi inte kan säga exakt var det hela har skett. I praktiken försöker jag alltså att studera hur stor effekt som fås på var brott kodas av att brott sker utomhus medans adresser bygger på hus.

Analysen här är inget fancy alls. Det är bara beskrivande statistik över hur skillnaderna ser ut. Jag åskådliggör det också med en väldigt enkel karta över ett bostadsområden som ni kan se nedan. Gula prickar är där polisen registrerat en bilbrand. Röda fyrkanter är platser där räddningstjänsten registrerat en bilbrand vid samma tid. Om man bortser från strecken mellan de olika som visar vilka incidenter som hör ihop kan det vid en första anblick se ut som att de ligger rätt nära varandra. Men faktum är att de flesta incidenterna i polisens data ligger ganska tydligt på fel plats. Den gula pricken uppe i högra hörnet är en bra illustration av det jag nämnde ovan med platser där det inte finns några adresser. Detta är en sådan väg, och den gula prick som syns där ligger ungefär i mitten av vägen, och har tre olika bilbränder registrerade på samma plats. Dessa tre bränder har i själva verket varit på andra platser, två av dom ca 200 meter söderut.


När jag på detta sätt jämför de platser där bilbränder registrerats i hela Malmö landar jag att polisens data tenderar att vara (median) strax över 80 meter "fel" om vi utgår från räddningstjänsten som facit. 80 meter är inte jättemycket, men ponera att polisen ska arbeta med hot spot policing (skicka poliser till brottsbelastade platser för att förebygga/förhindra brott), men blir skickade till en plats motsvarande den med tre bilbränder ovan. De kommer då att landa på en plats där det inte egentligen finns någon orsak att vara. Det här är troligen av mindre betydelse i de flesta fall då polisen också utgår från sin lokalkännedom, men det är likaväl en faktor som är väl värd att ha i åtanke, både för polisen och för oss forskare som studerar geografiska mönster av brottslighet. Det är också rimligt att anta att dessa fel är ännu större för brott som inte är lika lätta som bilbränder att identifiera en exakt plats för, t ex gatuvåld vilket är något som polisen ofta inriktar sig mot.
Eftersom felet huvudsakligen är slumpmässigt blir det inte något större problem så länge det bara är mönstren vi är intresserade av, men så fort vi börjar intressera oss för specifika platser är det något som vi bör vara medvetna om. Det är möjligt att felet är annorlunda i andra städer och för andra brott, men eftersom ingen annan försökt mäta det förut har vi nu i alla fall tagit ett första steg mot en förståelse för de utmaningar detta kan medföra.