Empiriska studier av bevisvärdering måste utföras och presenteras på ett vetenskapligt korrekt sätt

— replik till Christian Dahlman

Av jur.dr LINNEA WEGERSTAD

Dahlmans replik i SvJT 2020 s. 712 föranleder följande svar från min sida.
Det signifikanstest som Dahlman hänvisar till visar inte att det föreligger ett orsakssamband mellan brottstyp och domslut och det utesluter inte att andra omständigheter än brottstypen, som inte har undersökts i studien, inverkar på domslutet. För att kunna nå slutsatsen att det är brottstypen som orsakar domslutet krävs statistiska analyser som Dahlman inte har använt.

I den kvantitativa studie som presenteras i SvJT 2018 s. 327 har Dahlman och Korths-Aspegren undersökt om det finns ett samband mellan två variabler, nämligen brottstyp (olaga hot eller våldtäkt) och domslut (friande eller fällande).1 Utifrån observationen att brottstypen våldtäkt uppvisar en högre grad av fällande domar, medan brottstypen olaga hot visar en högre grad av friande domar, drar författarna slutsatser om domstolarnas bevisvärdering. I repliken framhåller Dahlman att det är fråga om ett orsakssamband mellan dessa variabler och att signifikanstestet, Chi2-testet,2 innebär att det kan uteslutas att skillnaden i andelen friande/fällande domar beror på något annat än brottstypen.3 Det är ett påstående som saknar stöd i statistisk metod. Tvärtom är det grundläggande inom kvantitativ forskning att skilja mellan statistiska samband och orsakssamband.4 Skillnaden mellan dessa samband förklarar jag i det följande.
Den som undersöker om två variabler samverkar gör en så kallad bivariat analys. I sin artikel redovisar inte Dahlman på vilket sätt analysen har genomförts. Men det krävs inte någon avancerad uträkning för att

1 Christian Dahlman, & Andreas Korths-Aspegren, Varför är bevisning som uppfylller beviskravet i våldtäktsmål inte tillräckligt i mål om olaga hot? SvJT 2018 s. 327. 2 Skrivs även chi-två-test eller chikvadrat-test. 3 I repliken anförs att den statistiska analysen (ett Chi2-test) ”visar att sannolikheten för att den observerade skillnaden mellan måltyperna inte beror på måltyp utan på andra individuella faktorer är mindre än en på hundra tusen” samt att ”Sannolikheten att en så stor skillnad inte beror på måltyp utan på andra faktorer är praktiskt taget obefintlig”, Dahlman, Christian. Även våldtäktsdomar bör undersökas vetenskapligt — replik till Linnea Wegerstad. SvJT, 2020, s. 714 respektive 715, mina kursiveringar. 4 Se till exempel Mimmi Barmark och Göran Djurfeldt, Statistisk verktygslåda 0: att förstå och förändra världen med siffror (Lund: Studentlitteratur, 2015), s. 36–37 och s. 181–184, samt Göran Djurfeldt, Rolf Larsson, och Ola Stjärnhagen, Statistisk verktygslåda 1: samhällsvetenskaplig orsaksanalys med kvantitativa metoder (Lund: Studentlitteratur, 2018), s. 167 och s. 194.

720 Linnea Wegerstad SvJT 2020 se en korrelation mellan brottstyp och domslut, då skillnaden i andelen friande/fällande domar mellan de två brottstyperna är mycket stor i det urval som Dahlman har undersökt. Jag har aldrig ifrågasatt denna korrelation.
    Efter att ha konstaterat att det finns ett samband mellan brottstyp och domslut i det urval som undersökts används Chi2-testet för att undersöka om det här sambandet också kan finnas i populationen. Med population avses den grupp av fall som ska beforskas, till exempel alla tingsrättsdomar om våldtäkt och olaga hot under en viss tidsperiod. Eftersom det sällan är möjligt att undersöka alla fall, hela populationen, görs ett urval. Urvalet i Dahlmans studie består av 70 domar.
    Signifikanstest, såsom Chi2-test, används alltså för att undersöka om det går att dra slutsatser om populationen utifrån det resultat som har observerats i urvalet. Risken finns ju att det är det är slumpen som har orsakat att sambandet förekommer i urvalet och Chi2-testet kan säga något om hur stor den risken är. Resultatet av det Chi2-test som har utförts i studien visar på en hög signifikansnivå. Inte heller det resultatet har jag ifrågasatt. Resultatet innebär att det är mycket låg sannolikhet för att det samband som har påträffats i urvalet skulle bero på slumpen och det går att med hög grad av säkerhet säga att ett sådant samband skulle påträffas också i ett annat urval.5 En förutsättning är dock att urvalet är slumpmässigt.6 Dahlman har i sin studie tillämpat en annan urvalsprocess, vilket jag återkommer till.
    Statistiskt signifikanta samband av nu nämnda slag är inte detsamma som att det föreligger ett orsakssamband. I en analys med statistiska metoder är det bara ett steg på vägen.7 Statistisk signifikant korrelation kan inte säga något om i vilken utsträckning en variabel orsakar eller förklarar en annan variabel. Ett Chi2-test kan således inte användas för att utesluta möjligheten att andra — inte undersökta — variabler påverkar det samband som har undersökts. Det är därför felaktigt att, så som Dahlman gör, säga att resultatet av Chi2-testet innebär att ”sannolikheten att en så stor skillnad inte beror på måltyp utan på andra faktorer är praktiskt taget obefintlig”.8 Den som själv har studerat brottmålsdomar eller dömt i brottmål kan föreställa sig att det finns många omständigheter, variabler, som inverkar på om domen blir friande eller fällande. Min kritik av studien handlar om att Dahlman inte har beaktat sådana omständigheter. Det innebär att det finns en risk för att andra omständigheter än brottstypen är

5 Se vidare Barmark och Djurfeldt, s. 140–141. 6 Ibid., s. 147. 7 Se närmare Göran Djurfeldt, Rolf Larsson, och Ola Stjärnhagen, Statistisk verktygslåda 1: samhällsvetenskaplig orsaksanalys med kvantitativa metoder (Lund: Studentlitteratur, 2018), särskilt s. 209 och s. 267–68. 8 Dahlman, s. 715.

SvJT 2020 Empiriska studier av bevisvärdering… 721 den verkliga förklaringen till den stora skillnaden mellan andelen friande/fällande domslut. Det är då fråga om ett skensamband, det vill säga ett statistiskt samband som inte är ett faktiskt orsakssamband.9 Det finns många belysande exempel på hur fel det kan bli när en statistiskt signifikant korrelation uppfattas och presenteras som ett orsakssamband. Låt säga att en forskare har sett ett samband mellan antalet brandmän som är närvarande vid en brandplats och omfattningen av de skador som konstaterats på brandplatsen.10 Precis som i Dahlmans studie kan ett signifikanstest visa att det är mycket låg sannolikhet för att det samband som har påträffats i urvalet (t.ex. 20 studerade bränder) skulle uppkomma om detta samband inte alls fanns i populationen (t.ex. alla bränder i Sverige). Det innebär inte att det är fråga om ett orsakssamband i den meningen att antalet brandmän är den variabel som förklarar skadornas storlek. Vid tolkningen av sambandet utifrån tidigare kunskap och erfarenhet kan forskaren konstatera att det finns andra faktorer än antalet brandmän, som inte har beaktats, som kan förklara skadornas omfattning. Det verkar rimligt att anta att skadornas omfattning beror på hur stor branden är. Med hjälp av statistiska metoder — i vad som brukar kallas multivariat analys — kan en sådan tredje variabels inverkan undersökas och det är möjligt att, med viss säkerhet, påvisa eller utesluta att det är fråga om ett skensamband.11 En förutsättning är dock att en studie är utformad på ett sådant sätt att den möjliggör för sådana kontroller. Så är inte fallet i Dahlmans studie.
Precis som Dahlman skriver innefattar kvantitativ forskning ett stort mått av tolkning. Teori och tidigare forskning är nödvändiga för att kunna skilja ett orsakssamband — att brottstypen kan förklara domslutet — från en statistisk korrelation.12 Domstolars dömande är en komplex verksamhet och det går som redan nämnts att föreställa sig många anledningar till att en dom blir friande eller fällande. Att studera komplexa förhållanden är dock inte något ovanligt inom kvantitativ samhällsforskning. Dock måste forskaren vara försiktig med att dra slutsatser om att en variabel kan förklara en annan, när endast dessa två variabler har undersökts. För att kunna tolka en korrelation mellan två variabler i termer av orsak och verkan, måste det med någon grad av säkerhet kunna uteslutas att det är fråga om skensamband. En förutsättning för att kunna dra slutsatser om orsak och verkan är att flera variabler undersöks i multivariat analys. En sådan kan, i fallet med Dahlmans studie, genomföras med till exempel multivariat korstabulering eller multivariat logistisk regressionsanalys.13

9 Djurfeldt, Larsson och Stjärnhagen, s. 269. 10 Exemplet beskrivs i ibid, s. 277. 11 Se exempelvis ibid, kapitel 10, angående multivariat korstabellanalys. 12 Se kortfattat Barmark och Djurfeldt, s. 36 och för utförligare resonemang Carol Aneshensel, Theory-based data analysis for the social sciences,2. ed. (Thousand Oaks: SAGE, 2013), kapitel 1. 13 För en kortfattad beskrivning, se Barmark och Djurfeldt, kapitel 9 och för fördjupning, se Djurfeldt, Larsson och Stjärnhagen, kapitel 10, samt Göran Djurfeldt

722 Linnea Wegerstad SvJT 2020 I Dahlmans studie ingår inte sådana analysmetoder. Istället har författarna sökt beakta andra variablers inverkan genom urvalet av domar. Visserligen har ett första urval gjorts slumpmässigt: tio geografiskt utspridda tingsrätter har valts ut slumpvis och från dessa söktes samtliga domar från 2015 och 2016 ut för respektive brottskategori. Det resulterade i 113 våldtäktsmål och 1 892 mål om olaga hot. Men därefter sorterade författarna ut fall utifrån ett antal kriterier, tills dess att 20 våldtäktsmål och 50 mål om olaga hot återstod.14 Dahlmans tysta antagande måste vara att han, genom att ställa upp kriterier för vilka domar som ska vara med i studien, ska kunna konstanthålla andra variabler i förväg. Det antas att om domarna är lika, kan den observerade skillnaden i andelen friande/fällande domslut inte bero på något annat än måltypen. Dahlmans slutsats, att det enbart är brottstypen som kan förklara domslutet, är given, eftersom det är det enda samband som har analyserats. Någon statistisk metod har inte använts för att testa andra variablers inverkan på sambandet. Istället består analysen av Dahlmans tolkning av domar utifrån kriterierna som ska säkra en likartad bevissituation.
    I min artikel pekade jag på individuella variationer mellan domarna och gav exempel på olika omständigheter som inte har undersökts i studien och som kan antas inverka på om domslutet blir friande eller fällande.15 Dahlmans tillvägagångssätt är således inte bara udda i förhållande till hur kvantitativ samhällsforskning sedvanligt utförs, det har faktiskt inte gett ett tillförlitligt resultat.
    Dahlman skriver att jag försöker skapa en bild av att våldtäktsmålen i studien har starkare bevisning än målen om olaga hot.16 Utifrån min erfarenhet av straff- och straffprocessrätt, såväl som forskare som i arbete vid domstol, lyfter jag fram omständigheter som har betydelse för utgången i målen men som inte har beaktats i studiens utformning. Det är inte av avgörande betydelse för min kritik om det är starkare eller svagare bevisning i en viss måltyp.17 Resultatet är inte tillförlitligt eftersom författarna inte har beaktat de variationer som finns mellan domarna och inte undersökt relevanta omständigheter.
    Att utforma en studie på det sätt som Dahlman har gjort skapar också en oklarhet kring hur populationen ska förstås. Det framgår inte om resultatet endast kan generaliseras till mål i tingsrätt som uppfyller de angivna kriterierna, det vill säga mål om olaga hot respektive våldtäkt i vilka det föreligger en viss bevissituation, eller om författarna anser att resultatet kan generaliseras till samtliga mål om våldtäkt respektive olaga hot, oavsett bevissituation. Denna oklarhet i presentationen av

och Mimmi Barmark (red.), Statistisk verktygslåda 2 — multivariat analys (Lund: Studentlitteratur, 2009), kapitel 6. 14 Dahlman & Korths-Aspegren, s. 330. 15 Linnea Wegerstad, Brister i en studie om domstolars bevisvärdering avseende mål om olaga hot och våldtäkt, SvJT 2020 s. 692. 16 Dahlman, s. 716. 17 Se Wegerstad, s. 710–711.

SvJT 2020 Empiriska studier av bevisvärdering… 723 studien har lett till att andra har tolkat resultatet som att det kan generaliseras till samtliga mål om våldtäkt, utan att det finns stöd för detta i studien.18 Här bör också beaktas att den bevissituation som författarna har valt att studera tycks vara relativt vanligt förekommande i våldtäktsmål men relativt ovanligt i mål om olaga hot. Utifrån det initiala urvalet av domar har endast cirka 3 procent (50/1892) av domarna avseende olaga hot valts ut, medan 18 procent (20/113) av våldtäktsmålen valts ut.
    För den som vill använda statistiska metoder för att undersöka om beviskravet tillämpas på ett enhetligt sätt finns lämpligare tillvägagångssätt än det som Dahlman har använt sig av. Som nämnts ovan kan ett urval av domar studeras med de metoder som finns för att göra multivariata analyser. Utifrån teoribildning om vad som kan antas påverka domslutet kan variabler formuleras, som exempelvis brottstyp, förekomsten av viss bevisning, om den tilltalades berättelse tillmäts betydelse, antal vittnen, relation mellan vittne/målsägande/tilltalad etc. Bedömningen av målsägandens utsaga kan utgöra en variabel, som kan kodas i olika grader av styrka. En variabel skulle kunna vara målsägandens psykiska tillstånd, vilket Dahlman framhåller vara en avgörande omständighet vid bevisvärdering i våldtäktsmål.19 I en sådan studie är det möjligt att undersöka om det finns en korrelation mellan brottstyp och domslut, kontrollerat för andra variabler som kan antas påverka domslutet.
    Ett exempel på ett liknande tillvägagångssätt är en kortanalys gjord av Brottsförebyggande rådet.20 Syftet var här, bland andra, att svara på om kvinnor döms till fängelse för grovt rattfylleri i samma utsträckning som män. Frågeställningen hade likheter med Dahlmans studie, eftersom den handlade om att granska enhetlighet i dömandet, samtidigt som straffvärdebedömning och påföljdsval är komplexa. I studien användes multivariat logistisk regressionsanalys för att skatta olika variablers (bland annat kön och tingsrätt) påverkan på sannolikheten att dömas till fängelse, samtidigt som den möjliggjorde konstanthållning av andra omständigheter.
    Kvantitativt inriktad forskning handlar dock inte bara om statistiska metoder, utan lika mycket om tolkning. Är resultatet rimligt mot bakgrund av tidigare forskning och erfarenhet? Utifrån kunskap och erfarenhet om bränder går det att se det orimliga i att antalet brandmän orsakar skadornas omfattning. Utifrån kunskap om och erfarenhet av dömande i brottmål har jag visat att Dahlman bortsett från omständigheter som kan förklara skillnaden i andelen friande/fällande domslut.
    I sin replik bemöter Dahlman inte min kritik, utan framställer det som att han använt statistiska metoder som kan utesluta att skillnaden mellan de två grupperna av domar beror på annat än brottstyp. Som

18 Se Brottsförebyggande rådet, Rapport 2019:9 Våldtäkt från anmälan till dom, s. 89. 19 Dahlman, s. 717. 20 Brottsförebyggande rådet, Kortanalys 3/2017 Enhetligt dömande i tingsrätter. En statistik analys av andelen fängelsedomar.

724 Linnea Wegerstad SvJT 2020 jag har visat är en sådan slutsats inte möjlig att dra av en bivariat analys och ett Chi2-test. Att påstå att Chi2-testet innebär att andra förklaringar är uteslutna är därför en missvisande beskrivning som döljer studiens begränsningar. Av vetenskapliga krav följer att en forskare ska redogöra för sitt tillvägagångssätt och sin tolkningsprocess, så att läsaren sedan kan bedöma resultatets tillförlitlighet. Att, likt Dahlman, hänvisa till att endast den som har läst alla domar kan förstå hans tolkningsprocess fullt ut är mot den bakgrunden oacceptabelt.21 En följd av att publicera en bristfällig studie är att den verksamhet som har studerats — domstolarna — utsätts för ogrundad kritik. Det kan inte bara skada förtroendet för rättsvetenskapen utan också få konsekvenser för dömandet. Det finns ett ökat intresse för att använda samhällsvetenskapliga metoder för att utföra empiriska studier av rättsväsendet och min kritik skulle kunna användas för att förbättra kvaliteten på sådana studier. Det är därför beklagligt att Dahlman väljer att spekulera i mina bevekelsegrunder och tolkar mina synpunkter som uttryck för någon sorts ideologi, istället för att öppna upp för en diskussion i sak. Dahlman skriver inte vilken ideologi som åsyftas, och inte heller vilken part han anser att jag företräder.
Avslutningsvis kan jag konstatera att Dahlman har publicerat en studie med oroande brister och begränsningar som det inte redogörs för. Publikationen väcker farhågan att Dahlman har varit alltför ivrig med att vilja övertyga läsaren om att hans hypotes har empiriskt stöd. Men författarens avsikt är mindre relevant i sammanhanget. Desto viktigare är att rättsvetenskapliga studier av domstolarnas bevisvärdering utformas och presenteras på ett sätt som gör resultatet tillförlitligt, något som också är en förutsättning för att förstå och diskutera ämnet vidare.

21 Dahlman s. 717.