Utvärdering av insatser i hälso- och sjukvården och socialtjänsten
En metodbok
1. Introduktion
Det inledande kapitlet innehåller en beskrivning av varför systematiska översikter behövs, hur de bör rapporteras och hur metodboken är uppbyggd.
Det är viktigt att de insatser som används inom exempelvis hälso- och sjukvård, socialtjänsten, tandvården, funktionshinderområdet och arbetsmiljö baseras på bästa tillgängliga vetenskapliga kunskap. Den kunskapen kommer från välgjorda systematiska översikter (eng. Systematic Review) (Faktaruta 1.1).
Ordet insats är brett och kan avse såväl olika interventioner, former av stöd och medicinteknik, som olika metoder för att diagnostisera, förutse, bedöma och utreda utfall eller tillstånd. För att underlätta för läsaren kommer vi i kommande kapitel att använda begreppet insatser.
SBU arbetar med att utvärdera insatser som antingen redan används eller skulle kunna användas inom hälso- och sjukvården, tandvården, arbetsmiljöområdet, socialtjänsten samt funktionshinderområdet. SBU presenterar kunskap från sammanställningar av forskningsstudier, vanligtvis i form av en systematisk översikt, men gör även fullständiga utvärderingar. En fullständig utvärdering omfattar även utvärdering av ekonomiska och etiska aspekter som har betydelse för användning av insatsen. Denna typ av rapport kallas vanligen HTA-rapport (eng. Health Technology assessment) inom det medicinska området eller STA-rapport (eng. social intervention assessment) för utvärderingar inom det sociala området (Figur 1.1). I den här boken kommer vi att kalla det för HTA-rapport oavsett vilket område det gäller.
Denna metodbok är tänkt som ett praktiskt stöd för dem som ska genomföra en systematisk översikt eller HTA-rapport. Metodbokens första del rör de olika stegen i arbetet med en systematisk översikt med separata kapitel för formulering av frågeställningar, identifiering av litteratur, granskning av primärstudier (originalstudier), syntes av resultaten från dessa studier, bedömning av hur tillförlitliga resultaten av syntesen är samt identifiering av forskningsbehov. I metodbokens andra del finns information om användandet av andras systematiska översikter, antingen helt eller delvis. Metodboken avslutas med ekonomiska och etiska aspekter som behöver ingå för att en HTA-rapport ska bli komplett.
Metodboken tar inte upp andra typer av forskningssammanställningar såsom scoping reviews, umbrella reviews, overviews of reviews eller kartläggningar (eng. Evidence Maps) även om de i många avseende har liknande upplägg avseende transparens och reproducerbarhet. Mer information om metoderna för denna typ av sammanställningar finns i Cochrane handbook [1], Johanna Briggs Institute manual [2] och från Campbell collaboration [3].
En systematisk översikt ska uppfylla höga krav på att resultatet är tillförlitligt. För att göra det måste arbetet med den följa principer som minimerar risker för att slump, systematiska fel eller att subjektiva värderingar påverkar slutsatserna. Vanligen arbetar flera personer med en systematisk översikt och de har erfarenhet av det ämne som den systematiska översikten berör, hur man tar fram en systematisk översikt eller båda delar. I följande kapitel kommer de personer som genomför arbetet med att ta fram den systematiska översikten eller HTA-rapporten att benämnas projektgruppen.
Innan ett projekt startar bör projektgruppen kontrollera om några liknande projekt pågår i någon annan HTA-organisation eller om det redan finns andra aktuella systematiska översikter som kan användas för att besvara frågan. I Kapitel 10 finns mer information om hur man kan använda befintliga systematiska översikter.
1.1 Rapporteringsriktlinjer
En välgjord systematisk översikt ska rapporteras på ett sådant sätt att läsaren kan granska hur översikten har tagits fram. Det finns internationella riktlinjer för hur systematiska översikter ska rapporteras. Preferred Reported Items for Systematic Reviews and Meta-analyses (PRISMA) [5] är främst avsedd för studier med kvantitativ metodik. För systematiska översikter som bygger på studier med kvalitativ metodik finns riktlinjerna ”The Enhancing transparency in reporting the synthesis of qualitative research” (ENTREQ) [6].
2. Avgränsningar för den systematiska översikten
Det här kapitlet handlar om att ta fram ett protokoll, att strukturera frågeställningen och att och formulera urvalskriterier i en systematisk översikt.
2.1 Protokoll
Arbetet med en systematisk översikt inleds med att skriva en projektplan, dvs ett protokoll för den systematiska översikten. Protokollet beskriver syftet med den systematiska översikten, vilka frågeställningar som ska besvaras i den, vilka urvalskriterier som gäller samt vilken metodik som används för att genomföra arbetet. Protokollet bör följa en etablerad struktur för att få med samtliga relevanta delar (Faktaruta 2.1). Det är också en god idé att publicera protokollet i en internationell databas exempelvis i databasen PROSPERO. På så sätt blir arbete mer transparent och risken blir mindre att frågeställningen justeras utifrån de studier som blir inkluderade under arbetets gång.
2.2 Frågeställning
För att nå en relevant frågeställning bör projektgruppen börja med att samla in kunskap från olika kompetensområden. Dessa kan vara kliniskt eller praktiskt verksamma, forskare inom området samt personer som har de undersökta tillstånden eller behoven. Exempel på frågor som kan vara bra att besvara är:
- vilka insatser används i dagsläget, och hur?
- hur definieras populationen vanligen i forskningen?
- vilken är den relevanta jämförelsen?
- vilka utfall är det som är viktiga för till exempel brukare, patienter eller andra som är direkt berörda av ämnet i den systematiska utvärderingen?
När frågeställningen eller frågeställningarna för översikten är specificerade behöver de struktureras. En ostrukturerad frågeställning leder till problem genom hela processen, eftersom det då till exempel kan bli svårt att skapa bra sökstrategier och bedöma vilka studier som är relevanta. Första steget i processen är därför att anpassa frågeställningen till ett strukturerat format. Faktaruta 2.2 beskriver några av de vanligaste formaten. Om den systematiska översikten har flera frågeställningar kan översiktens författare behöva ta fram olika PICO, PECO, SPICE (eller dylikt). Vi kommer att gå igenom dessa fem frågeformat i Avsnitt 2.2.1 till 2.2.5 i detta kapitel.
PICO, PECO och SPICE är exempel på strukturerade format för frågeställningar och är samtidigt en del av kriterierna för vilka studier översikten inkluderar och exkluderar. Också övriga urvalskriterier anges i protokollet, som studiedesign, tidsspann som litteratursökningen omfattar, och språk. Mer om dessa i Avsnitt 2.3.
2.2.1 Strukturerat format för frågeställningar om effekter av insatser
Den strukturerade formatet för frågeställningar om effekt har formatet PICO (Population, Insats, Jämförelse (eng. Control), Utfall (eng. Outcome). I nedanstående stycke ges exempel på vanliga studiedesigner för att besvara denna typ av frågeställning samt exempel på hur PICO kan formuleras.
När det gäller studiedesign besvaras frågeställningar om effekt av insatser lämpligast med så kallade kontrollerade studier där det finns en insatsgrupp och en jämförelsegrupp. Dessa kontrollerade studier besvarar frågan om det finns ett samband mellan insatsen och utfallet. Den insats som utvärderas ges till insatsgruppen, medan jämförelsegruppen får en annan eller ingen insats. En sådan jämförelse är av vikt för att avgöra om den utvärderade insatsen är bättre, lika bra eller sämre än jämförelseinsatsen. I randomiserade kontrollerade studier (RCT) har studiedeltagarna slumpats till insatsgrupp alternativt jämförelsegrupp, medan gruppfördelningen i kontrollerade studier utan randomisering sker på annat sätt än slumpmässigt. Valet av randomisering jämfört med icke-randomisering är oftast avgörande för att kunna besvara om det finns ett orsakssamband mellan insatsen och utfallet. Se Kapitel 5 för mer information.
För att upptäcka biverkningar, komplikationer eller oönskade effekter av en insats kan andra typer av studiedesign, som longitudinella uppföljningar och registerstudier vara aktuella. En annan studiedesign som ibland kan vara aktuella till exempel vid utvärdering av effekter av ändrade policies eller lagstiftning är avbrutna tidsserier (eng. interrupted time series, ITS) [8] [9] [10]. En design som kan vara aktuell för exempelvis sällsynta tillstånd är Single case experimental design där den eller de personer som deltar utgör sin egen jämförelse. Effekten av en insats prövas genom att insatsen, till en och samma person, introduceras (aktiv insats) och därefter tas bort (jämförelseinsats i form av ingen insats) ett antal gånger med upprepade mätningar av det utfall forskarna vill mäta innan, under och efter introduktionen av den aktiva insatsen. Studier som undersöker om effekterna av insatserna är likvärdiga kallas non-inferiority studier (Faktaruta 2.3).
2.2.1.1 PICO
Ett PICO innehåller fyra delar:
- För vilka patienter, klienter eller personer är det relevant att undersöka effekten av insatsen?
- Vilken är insatsen?
- Vad är jämförelsealternativet?
- Vilka positiva och negativa utfall av insatsen är av intresse och hur ska de mätas?
Det är också viktigt att definiera om frågeställningen gäller om insatsen är bättre än jämförelsealternativet, eller om insatsen är lika bra som jämförelsealternativet. Det senare fallet, så kallat non-inferiority, kan till exempel vara av intresse om det kommer en ny insats som är billigare, lättare att genomföra eller medför färre besök vid sjukhus eller socialtjänstverksamheter.
Nedan finns ett exempel på ett PICO (Faktaruta 2.4) utifrån en frågeställning.
2.2.1.2 Population
Populationen utgör den eller de grupper som är aktuella för den undersökta insatsen. Det är viktigt att populationen beskrivs noggrant. Flera delar kan behöva förtydligas: avser frågeställningen både kvinnor och män? Ska effekten utvärderas för specifika åldersgrupper? Ingår personer med funktionsnedsättning eller bör de ingå i populationen? Hur stringenta krav kan ställas på diagnos, funktionstillstånd eller bedömning av behov för populationen? Accepteras bara studier som använt diagnostiska kriterier eller fastställda bedömningsgrunder, och i så fall vilka? Räcker det med självrapporterade problem? Finns det någon samsjuklighet eller flera olika funktionstillstånd att ta hänsyn till? Ska frågan enbart gälla personer som brukar eller missbrukar någon drog?
Ibland är det lämpligt att definiera en minsta andel deltagare som uppfyller kraven i studien för inkludering av den i översikten, exempelvis vid studier av äldre att minst 70 procent är över 65 år.
2.2.1.3 Insats
Här anger översiktens författare den insats (intervention, behandling) som frågeställningen gäller. Exempel på en insats är psykologiska insatser i syfte att behandla depression efter förlossning. I vissa fall finns behov av avgränsningar. Det kan exempelvis handla om utvärdering av en viss dos av ett läkemedel, ett visst antal tillfällen av en insats, en särskild intensitet i insatsen, hur länge insatsen ska pågå och vem som ska genomföra insatsen. De insatser som inkluderas i översikten ska vara relevanta för svenska förhållanden antingen genom att de redan är införda eller bedöms kunna införas inom vård, socialtjänst, funktionshinderområdet eller arbetslivet inom överskådlig framtid.
2.2.1.4 Jämförelse
Vilken är jämförelsealternativet till insatsen? Vanliga jämförelsealternativ är placebo, sedvanlig insats, väntelista eller en annan insats. Ibland kan det vara tydligt att effekten av två olika insatser ställs mot varandra, medan det i andra fall inte alltid finns något tydligt jämförelsealternativ. Se Faktaruta 2.5 för mer information om olika jämförelsealternativ.
2.2.1.5 Utfall
Utfall innebär den uppmätta och beräknade skillnaden i effekt efter att deltagare erhållit insatsen eller jämförelsealternativet. Ofta finns det flera olika utfall i en och samma forskningsstudie. Översiktens författare behöver här ange vilka av dessa som kommer att sammanställas i översikten. Utfallen kan vara av olika betydelse för dem som insatsen riktas till (Faktaruta 2.6). Exempel på utfall som har direkt koppling till de som är berörda är personens återstående livslängd, grad av problem eller behov liksom upplevd livskvalitet eller aktivitet. Andra utfall, som till exempel laboratorievärden, en rullstols tekniska prestanda eller deltagarens förmåga att ta sig fram med sin rullstol ett visst antal meter, är endast viktiga om de antingen har en direkt koppling, det vill säga ett orsakssamband, till hälsoutfall eller en faktisk möjlighet att öka aktivitet. I övrigt är de mindre viktiga.
En systematisk översikt kan innehålla flera utfall för en frågeställning, exempelvis såväl förändring av symtom, tillstånd, eller behov, som livskvalitet och upplevd trygghet, och biverkningar eller oönskade effekter. Förslagsvis definieras ett primärt utfall och därefter ett, eller några få, sekundära. Det primära utfallet i en systematisk översikt bör vara mycket viktigt för de som berörs av tillståndet eller har behovet. Det är viktigt att överväga negativa konsekvenser av en insats, som till exempel komplikationer, ökning av problembeteenden eller uppkomst av funktionshinder. Vid en HTA-rapport ingår dessutom ofta mått på insatsers kostnadseffektivitet (Kapitel 11).
Specificeringen av utfall omfattar även hur de ska mätas, med vilket mått samt när mätningen sker. Mätmetoderna ska vara validerade och reliabla, det vill säga att instrumentet mäter det som är det är avsett att mäta eller bedöma och att själva mätningen går till på samma sätt oavsett av vem som utför den och när (Avsnitt 7.3). Utfallet kan mätas vid en eller flera tidpunkter. Ett exempel är mätning av effekter av förebyggande (preventiva) insatser där den önskvärda effekten kan ligga decennier framåt i tiden.
För vissa tillstånd finns så kallade prioriterade utfall (eng. Core Outcome Sets, COS) [14]. Prioriterade utfall är framtagna i konsensusprocesser där personer med det aktuella tillståndet eller behovet, professionsföreträdare och forskare tillsammans enas om vilka utfall som är viktigast. Syftet är att få en enhetligare rapportering av utfall och att måtten forskarna har använt sig av för att mäta dessa utfall är de mest relevanta för intressentgrupperna. Artiklar med sammanställningar av framtagna prioriterade utfall finns samlade i en databas på Comet Initiatives webbplats.
2.2.2 Strukturerade format för frågeställningar om samband mellan en exponering och ett utfall
Den strukturerade frågan för denna frågeställning har formatet PECO. Det står för population, exponering, jämförelse (eng. comparator) och utfall (eng. outcome). I nedanstående stycke ges exempel på vanliga studiedesigner för att besvara denna typ av frågeställning samt exempel på formulering av ett PECO.
Exponering är ett brett begrepp som ofta används inom epidemiologisk forskning, och avser faktorer som kan vara associerade med ett utfall. Exponeringsstudier förekommer till exempel inom forskning kring livsstilsfaktorer som kost, rökning och miljöfaktorer som miljögifter och arbetsmiljö eller sociala faktorer som exempelvis socioekonomi eller medberoende.
Exempel på frågeställningar kan vara vilket samband det finns mellan en viss kost och cancer eller mellan boendeform för placerade ungdomar och kriminalitet. Kost respektive boendeform utgör i dessa fall exponering och förekomst av cancer respektive kriminalitet är utfallen.
Frågeställningar om samband mellan exponering och utfall besvaras ofta med longitudinella studier (men även andra studiedesigner som fall-kontrollstudier kan vara aktuella) där deltagarna följs över tid och samband mellan en exponeringsfaktor och utfallet undersöks. Exponeringstudier som inte är randomiserade har begränsade möjligheter att svara på om det finns ett orsakssamband mellan exponering och utfall, eller om det är andra förväxlingsfaktorer som orsakar sambandet (Avsnitt 5.2).
2.2.2.1 PECO eller PEO
I arbetet med ett PECO är det fyra delar av frågeställningen som är viktiga:
- För vilka är det relevant att undersöka sambandet?
- Vilken är exponeringsfaktorn?
- Vad är jämförelsealternativet?
- Vad är utfallet?
Ibland handlar frågeställningen om olika nivåer eller grader av exponeringar jämfört sinsemellan, utan en uttalad jämförelsegrupp. I sådana fall pratar man i stället om PEO. I protokollet behöver det även framgå om frågeställningen avser orsakssamband (kausalt samband) dvs. att exponeringen leder till utfallet eller inte.
2.2.2.2 Population
Här gäller samma överväganden för populationen som i ett PICO för frågeställningar om effekten av insatser (Avsnitt 2.2.1.2).
2.2.2.3 Exponering
Här beskrivs vilken exponeringsfaktor som avses. Exponeringen kan mätas och analyseras på olika sätt. Ibland definieras den utifrån om en grupp har utsatts för exponeringsfaktorn eller inte, det vill säga exponerad/icke exponerad. Till exempel om man vill undersöka samband mellan att utföra mycket repetitiva armrörelser i arbetet och besvär i nacke eller axlar.
I andra fall kan exponeringen vara definierad utifrån olika kategorier, till exempel låg, medelhög eller hög grad av exponering, eller exponeringar över eller under ett visst tröskelvärde. Om exponeringen är kontinuerlig, till exempel mäts med ett indexvärde för kontinuitet, brukar den ofta kategoriseras för att underlätta analys och tolkning. Exempel på en kontinuerlig exponering är ljudnivå på en arbetsplats. Denna kan kategoriseras som låg, måttlig, hög etc. för att kunna se effekter av olika nivåer på ett utfall, till exempel tinnitus.
Exponeringen kan även bestå av olika grader av intensitet i till exempel kontakter med sjukvården eller socialtjänsten, som graden av kontinuitet till en fast person.
2.2.2.4 Jämförelse
Ofta görs jämförelsen i denna typ av studier mellan de som är exponerade och de som inte är exponerade. Ibland jämförs olika nivåer eller grader av exponeringar med varandra, utan att göra en uttalad jämförelse med en grupp som inte varit exponerad.
2.2.2.5 Utfall
Här gäller i stor utsträckning samma överväganden som i ett PICO för frågeställningar om effekten av insatser (Avsnitt 2.2.1.5).
2.2.3 Strukturerat format för frågeställningar om diagnostik och bedömningsmetoder
Den strukturerade frågan har formatet PIRO (Population, Indextest, Referenstest, Utfall). I nedanstående avsnitt finns exempel på vanliga studiedesigner kopplade till diagnostiska test samt bedömningsmetoder inom arbetsmiljö-, socialtjänst och funktionshinderområdet, samt exempel på hur PIRO kan formuleras.
Diagnostiska test, manualer och utrustning som används för att fastställa och diagnostisera medicinska tillstånd sammanfattas fortsättningsvis med begreppet test.
När det gäller arbetsmiljö-, socialtjänst- och funktionshinderområdet kan olika former av arbetssätt, verktyg och formulär användas som stöd för bedömning av behov av en insats (Faktaruta 2.8). Nedan benämns sådana arbetssätt, verktyg, enkäter och formulär gemensamt för bedömningsmetod.
Systematiska översikter om test eller bedömningsmetoder utvärderar i vilken utsträckning dessa korrekt bedömer, fastställer och klassificerar tillstånd och behov. Den medicinska termen vid sådan utvärdering är diagnostisk tillförlitlighet (eng. diagnostic accuracy). När det gäller utvärdering av tillförlitligheten till bedömningsmetoder benämns det härefter med samma term.
Frågeställningar om diagnostisk tillförlitlighet besvaras ofta med tvärsnittsstudier, men även andra studiedesigner som diagnostiska RCT (Faktaruta 2.9) eller fall-kontroll studier kan vara aktuella. I sådana studier fastställs deltagarnas tillstånd eller behov med det test eller den bedömningsmetod som utvärderas (härefter benämnt indextest), samt med det test eller den bedömningsmetod som indextestet jämförs med, ett referenstest.
2.2.3.1 PIRO
I arbetet med ett PIRO är det fyra delar av frågeställningen som är viktiga:
- För vilka personer ska testet eller bedömningsmetoden användas?
- Vilket är testet eller bedömningsmetoden som utvärderas?
- Vad är jämförelsealternativet?
- Vad är det testet ska diagnostisera eller bedöma?
Det är också viktigt att definiera om frågeställningen gäller:
- olika bedömningsmetoders eller testers psykometriska egenskaper, det vill säga hur väl testet eller metoden mäter det som är avsett att mätas, samt hur likartade skattningar blir när olika personer gör skattningen vid olika tillfällen (mer information om den typen av översikter finns beskriven av en organisation som heter Consensus-based Standards for the selection of health Measurement Instruments, COSMIN)
- i vilken utsträckning diagnostiska test eller bedömningsmetoder korrekt kan skilja ut personer med ett visst tillstånd eller behov jämfört med ett referenstest som antas skatta tillståndet eller behovet korrekt
- effekter av de insatser som, baserat på diagnosen eller bedömningen, ges eller erbjuds den enskilde.
Frågeställningar i en systematisk översikt om effekt av användning av tests eller bedömningsmetoders resultat på val av insats, med avseende på patient- eller personnära utfall, formuleras enligt PICO.
I Faktaruta 2.10 finns exempel på frågeställningar utifrån dessa tre olika syften.
2.2.3.2 Population
Ett och samma diagnostiska test eller bedömningsmetod kan ha olika diagnostisk tillförlitlighet i olika populationer. Det är därmed viktigt att populationen som översikten avser beskrivs noggrant, exempelvis om utvärderingen gäller en viss åldersgrupp, ett visst kön, eller personer med en viss bakgrund och funktionstillstånd. Därutöver behöver två ytterligare aspekter beaktas, nämligen sammanhang (eng. setting) liksom testets eller bedömningsmetodens tilltänkta användningsområde (Faktaruta 2.11). Med sammanhang avses om utvärderingen enbart gäller personer i ett visst specificerat sammanhang, exempelvis personer som utreds av socialtjänsten, personer som är inskrivna i slutenvård eller personer i en särskild arbetsmiljö.
2.2.3.3 Indextest
Ett indextest är det test eller den bedömningsmetod som utvärderas med avseende på dess diagnostiska tillförlitlighet. I vissa fall kan det vara nödvändigt med avgränsning till en viss version av till exempel en medicinsk utrustning eller vissa specificerade behov. Det kan även vara så att flera indextester eller bedömningsmetoder utvärderas i samma systematiska översikt.
2.2.3.4 Referenstest
Referenstest (även kallat referensstandard, referensmetod) är det test eller den bedömningsmetod som indextestet som utvärderas jämförs med. Referenstest kan vara tidigare utvärderade test eller bedömningsmetoder som visats ge tillförlitliga resultat. De referenstest som används som jämförelse förutsätts kunna klassificera aktuellt tillstånd, eller behov korrekt. Det är dock sällan ett referenstest är perfekt, och i många fall finns det inte heller något etablerat referenstest. I den senare situationen kan man istället välja mellan olika typer av teoretiska, ideala eller utifrån praktiken konstruerade referenstest [16] [17] (Faktaruta 2.12). Det är ingen nackdel att använda sig av ett konstruerat referenstest om det klassificerar tillståndet eller behovet korrekt.
2.2.3.5 Utfall
För utfallen gäller att specificera det tillstånd eller behov som testet eller bedömningsmetoden ska identifiera. De effektmått som används i en diagnostisk tillförlitlighetsstudie är vanligen sensitivitet (känslighet) och specificitet (träffsäkerhet) och för en översikt om psykometriska egenskaper olika former av validitet och reliabilitet, dessa beskrivs mer utförligt nedan (Faktaruta 2.13 och Faktaruta 2.14) .
2.2.4 Strukturerat format för frågeställningar om förutsägelse (prediktion) av framtida utfall
När översiktsförfattare gör sammanställning av studier om framtida utfall gäller det strukturerade frågeformatet PICOTS. Det står för population, indextest, referenstest (eng. control), utfall (eng. outcome), tid och sammanhang. I avsnittet nedan finns exempel på vanliga studiedesigner kopplade till prediktion, samt exempel på ett formulerat PICOTS.
En del av de test och bedömningsmetoder som används inom hälso- och sjukvård, tandvård, socialtjänst samt funktionshinder- och arbetsmiljöområdet handlar om prediktion, det vill säga att förutsäga risken för att något kommer att inträffa, till exempel för att avgöra hur en fråga ska utredas vidare eller vilka insatser som kan behövas i framtiden. I Faktaruta 2.15 beskrivs skillnader mellan prediktion, diagnostik och exponeringfrågeställningar.
Den information som används för att göra förutsägelsen i en prediktiv studie är vanligen olika bedömningar, faktorer, markörer, modeller eller beslutsregler. Den informationen kallas för prediktiv faktor eller prediktionsmodell. Det kan exempelvis vara att undersöka vilka faktorer som kan förutsäga vilka som har hög risk att återfalla i brott, hög risk för suicid eller hög risk för återfall i sjukdom. Förutom att resultaten kan styra val av insats kan de även bidra genom att ge:
- utökad information till individen samt vård-, omsorgs- och arbetsgivare
- den som ska få insatsen möjlighet att delta i planeringen av olika insatser inklusive valet att avstå en insats
- möjlighet att starta förebyggande (preventiva) insatser
- förutsättningar för bästa möjliga insatser, exempelvis i form av precisionsmedicin.
Frågeställningar om hur väl en prediktiv faktor eller modell kan förutsäga sannolikheten för att ett tillstånd, en händelse eller ett behov kommer uppstå i framtiden besvaras ofta med longitudinella studier där forskare följer deltagarna över tid och undersöker sambandet mellan en specifik faktor eller modell och ett visst utfall.
2.2.4.1 PICOTS
I arbetet med PICOTS är det sex delar som specificeras:
- För vilka personer är prediktionen av intresse?
- Vilken faktor eller modell är det som ska utvärderas?
- Finns det någon jämförande faktor eller modell?
- Vad är det som ska förutsägas?
- Inom vilken tidsrymd vill man att förutsägelsen ska ske?
- I vilket sammanhang är förutsägelsen tänkt att appliceras?
Det är också viktigt att definiera om frågeställningen gäller:
- Övergripande prognos. Studier av övergripande prognos (engelska: average/overall prognosis) undersöker utvecklingen av ett tillstånd i befolkningen eller i en viss grupp av personer [20]. Exempelvis kan forskare vara intresserade av hur ungdomar som växer upp i ett område med hög kriminalitet klarar sig senare i livet.
- Prediktionsfaktor. Studier av prediktionsfaktorer (risk eller skyddsfaktorer samt funktionshindrande eller funktionsfrämjande faktorer) (engelska: Prognostic factor studies) undersöker om det finns ett samband mellan en viss mätbar faktor, och ett framtida tillstånd, behov eller händelse [21]. Till exempel kanske man är intresserad av hur väl koncentrationen av kolesterol i blodet förutsäger risken att drabbas av en kardiovaskulär händelse (exempelvis hjärtinfarkt) inom ett visst tidsperspektiv, eller hur väl skattning med ett bedömningsinstrument kan förutsäga risk för återfall i brott.
- Prediktionsmodell. Syftet med prediktionsmodeller (Synonymer: prognostiska plattformar och prediktiva modeller) [22] är att utifrån en modell baserat på en matematisk kombination av resultatet från flera olika prediktionsfaktorer förutsäga framtida sannolikhet för en viss händelse att utvecklas. Till skillnad från prediktion som baseras på en enskild faktor, så omfattar en prediktionsmodell flera prediktionsfaktorer som tillsammans antas ge en bättre skattning av sannolikheten än de enskilda faktorerna var för sig. Ett exempel på en prediktionsmodell är SCORE. Denna modell skattar risken att dö av en kardiovaskulär händelse inom 10 år i utifrån värdet på följande riskfaktorer: kolesterol, ålder, kön, blodtryck och rökning.
- Effekten av insatser baserat på prediktionen (även kallat stratifierad medicin inom hälso- och sjukvård). Prediktionsstudier handlar oftast om i vilken utsträckning testet eller bedömningen kan förutsäga framtida tillstånd, behov eller händelser [23]. För att göra skillnad för individen behöver även utfallet av en insats baserat på prediktionen undersökas. Denna typ av frågeställning besvaras lämpligast genom RCT-studier eller andra kontrollerade studier (Avsnitt 2.2.1.)
Inom det medicinska området används så kallad precisionsmedicin som avser individanpassad utredning, prevention eller insats av sjukdom eller tillstånd, utifrån en prediktionsfaktor eller prediktionsmodell. Exempel på PICOTS för frågeställning om prognostisk faktor respektive prediktionsmodell finns i Faktaruta 2.16.
2.2.4.2 Population
Populationen behöver vara specifikt formulerad, eftersom olika grupper kan ha olika baslinjerisk eller sannolikhet för det utfallet, se Avsnitt 5.1.2 och Avsnitt 2.3.2.
2.2.4.3 Indextest/indexmodell
Med indextest/indexmodell menas den faktor eller modell som den systematiska översikten undersöker.
En faktor kan vara något som är objektivt mätbart, exempelvis ålder, biologiskt kön eller blodtryck, eller subjektiva mått, exempelvis grad av skörhet, depression eller beroende, och skattas via ett bedömningsformulär.
Med en modell avses en matematisk sammansättning av flera olika faktorer där olika faktorer kan ha olika stor vikt i sammanräkningen.
2.2.4.4 Referenstest
Här specificeras om jämförelse med andra faktorer eller modeller kommer att göras. I de fall det inte är aktuellt lämnas denna utan att fyllas i.
2.2.4.5 Utfall
För utfall gäller att specificera vad faktorn eller modellen ska kunna förutsäga och hur detta ska mätas. Exempelvis prediktion av död, återfall i brott, suicid, behov av hjälpmedel eller behov av ekonomiskt bistånd.
2.2.4.6 Timing
Två olika tidsaspekter är aktuella:
- När i tid som bedömningen/mätningen av faktorn eller modellen ska göras.
- Tiden för vilken utfallet ska förutsägas. Exempel: Död inom 30 dagar, återfall i kriminalitet inom 2 år, förbättrad funktionsnivå inom 1 år.
2.2.4.7 Sammanhang
Här specificeras i vilket sammanhang som bedömningen eller mätningen är tänkt att användas. Exempelvis om bedömningen är tänkt att göras på sjukhus, inom socialtjänsten eller i skolmiljö.
2.2.4.8 Övrigt
Om den systematiska översikten undersöker prognostiska faktorer, bör det i protokollet specificeras vilka kovariater som finns för utfallet. Med kovariat avses en eller flera andra faktorer, än de som utvärderas, som på förhand bedöms kan vara förknippade med utfallet. Dessutom bör det vara faktorer som det troligtvis finns information om när den prognostiska faktorn som utvärderas är tänkt att användas i praktiken. Exempel på vanliga kovariater är utbildningsnivå, ålder och kön men det skiljer sig åt beroende på vad som utvärderas.
Anledningen till att definiera kovariater i förväg är för att vid risk för bias-bedömning undersöka om de inkluderade studierna tar hänsyn till viktiga kovariater. Därefter utvärderas om det finns ett samband mellan den prognostiska faktorn och utfallet utöver det som kovariaterna kan förklara.
2.2.5 Strukturerat format för frågor om upplevelser, erfarenheter och värderingar
Det strukturerade formatet för frågor om upplevelser, erfarenheter och värderingar är SPICE. Det står för sammanhang, perspektiv, insats eller intresse, jämförelse (eng. control) och utvärdering (eng. evaluation).
Det har blivit allt vanligare med frågeställningar med utgångspunkt i personers upplevelser, erfarenheter och värderingar av till exempel en insats, ett så kallat fenomen, i effektutvärderingar [24]. Det kan handla om hur tillgänglig, hur genomförbar eller hur acceptabel informanterna upplever en särskild insats. Ofta kan besvaras frågor om personers upplevelser, erfarenheter och värderingar av en viss företeelse med hjälp av metoder som intervjuer eller observationer, det vill säga forskning med kvalitativ ansats. Det går även att använda enkätstudier, eller studier som använder både kvantitativ och kvalitativa data, så kallade mixed methods-studier.
Det kan finnas flera syften med en syntes av kvalitativ evidens, på engelska ofta kallad qualitative evidence synthesis (QES). Ett syfte är att utforska erfarenheter, upplevelser och uppfattningar av sjukvård, socialtjänst eller arbetsmiljö- och arbetslivsrelaterade insatser. Ett annat att utforska upplevelser av att ha ett visst tillstånd, som att tappa sina tänder. Andra syften kan vara att utvärdera upplevelser och erfarenheter när det gäller tillgång till en insats, hur användbar eller accepterad den upplevs eller upplevelser av att ge respektive få en särskild insats. Ytterligare en variant är när en syntes av kvalitativ evidens utforskar vad som hindrar och underlättar att man inför en insats i sin verksamhet [25].
Vägledningar från Joanna Briggs Institute (JBI) och Cochrane Collaboration beskriver hur resultat från kvantitativ och kvalitativ syntes kan läggas ihop i så kallade mixed methods-översikter [2] [26].
2.2.5.1 Om forskning med kvalitativ ansats
Kvalitativ forskning bottnar i olika traditioner som till exempel filosofi, antropologi och sociologi, som i sin tur har blivit basen för olika forskningsansatser [27]. Några vanliga exempel på detta är fenomenologi och hermeneutik som utgår från specifika filosofiska och kunskapsteoretiska traditioner och grounded theory som främst utgår från sociologi. Exempel på andra ansatser som används i primärstudier är etnografi, narrativ analys, fenomenografi, diskursanalys, tematisk analys, framework analysis och aktionsforskning [27]. Valet av ansats bestäms av studiens syfte och relation till teori, där syftet kan vara att till exempel generera ny teori, att testa befintliga teorier eller vara tillämpat, exempelvis som en del i en utvärdering av komplexa metoder. Ansatsen kommer i sin tur att påverka valet av metoder för att samla in, analysera och tolka data. Det är möjligt att olika kvalitativa metoder inte går att syntetisera i en översikt; de som utför en syntes av kvalitativ evidens bör vara väl bevandrade inom detta metodologiska fält för att kunna göra upplysta vägval.
Resultaten från en kvalitativ studie uttrycks ofta som teman eller kategorier. Kvalitativ forskning knyts till sammanhanget eller kontexten, vilket omfattar såväl den studerade populationen som sammanhanget eller miljön där den finns (eng. setting).
2.2.5.2 SPICE
Det finns flera typer av strukturerade format beroende på syntesmetod [24]. Ett vanligt format är SPICE som består av fem komponenter: sammanhang, perspektiv, insats eller intresse, jämförelse (eng. control) och utvärdering (eng. evaluation). Ett exempel på frågeställning med tillhörande SPICE finns i Faktaruta 2.18.
2.2.5.3 Sammanhang
Sammanhang omfattar till exempel geografiskt område (t.ex. Sverige, västvärlden, globalt), miljö (t.ex. primärvård, boende anpassat enligt lag om bostadsanpassningsbidrag, arbetsplats under jord, eller fängelse), lagstiftning (LSS, SoL, HSL, LVU) och policyer som kan påverka fenomenet, och tidsaspekter (t.ex. upplevelser före och efter en policyförändring).
2.2.5.4 Perspektiv
Denna komponent definierar vems perspektiv som översikten gäller, det vill säga den population som är av intresse. Det kan exempelvis vara barn och ungdomar placerade i familjehem, patienter som genomgår cancerinsats, blåljuspersonal som arbetar i en arbetsmiljö där hot förekommer eller blinda personers upplevelser och erfarenheter. I vissa fall kan det vara värdefullt att specificera undergrupper såsom kvinnor och män eller ambulans- och övrig räddningstjänstpersonal.
2.2.5.5 Insats/intresse
Denna komponent specificerar fenomenet eller insatsen på den detaljnivå som behövs. Om fenomenet är alltför översiktligt definierat kan det vara svårt att bedöma relevansen i det vetenskapliga underlaget. Även om frågeställningens avgränsning är att utforska upplevelser och erfarenheter av sjukvård, kriminalvård eller ett särskilt boende, kan sökningen behöva breddas så att till exempel studier som handlar om att leva med ett tillstånd eller behov accepteras, för att inte missa studier som kan ha undersökt bredare frågeställningar.
2.2.5.6 Jämförelse
Om det är relevant med en jämförelse för den kvalitativa syntesen, till exempel vid frågor om upplevelser och erfarenheter av insatser, ska denna beskrivas så detaljerat att jämförelsen blir meningsfull.
2.2.5.7 Utvärdering
Under denna rubrik specificerar översiktförfattarna resultatet av studierna, exempelvis i form av upplevelser, erfarenheter, värderingar, åsikter eller observerade beteenden.
2.2.6 Övrigt
2.2.6.1 Teori
En teori, modell eller teoretiskt ramverk kan underlätta uppgiften att identifiera viktiga faktorer i den strukturerade frågan. En beteendeteori eller social teori kan till exempel vara ett stöd för att förfina frågan, något som beskrivs mera detaljerat av Noyes och medarbetare [28].
2.2.6.2 Val av syntesmetod
Ange i protokollet vilken syntesmetod som kommer att användas. Valet av syntesmetod beror främst på forskningsfrågan men även praktiska aspekter såsom tid och tillgänglig expertis spelar in. Mer om olika syntesmetoder finns att läsa i Avsnitt 7.7. Grovt sett kan man dela in metoderna i beskrivande eller tolkande, där vissa metoder har såväl beskrivande som tolkande inslag (Figur 2.4). Valet av metod påverkar också litteratursökning och sökstrategi (Kapitel 3).
2.2.6.3 Reflexivitet
Begreppet reflexivitet handlar om dialogen mellan forskaren (i det här fallet översiktsförfattarna) och forskningen (i det här fallet den systematiska översikten). Den kan vara prospektiv eller retrospektiv. Prospektiv reflexivitet handlar om vilken påverkan översiktsförfattarna har på översikten. Den omfattar överväganden om hur författarnas förförståelse i form av kunskap, synsätt och uppfattningar kan påverka både vilken fråga och vilken metod de väljer, men också vilka tolkningar de gör under syntesen. Retrospektiv reflexivitet ger översiktsförfattaren en möjlighet att överväga om forskningsprocessen och de resultat som framkommer lett till att denne har fått en förändrad förförståelse.
Projektgruppens förförståelse och dess möjliga påverkan på metodval, liksom strategier för att minska påverkan, beskrivs i protokollet och i rapportens metodavsnitt. Om projektgruppen kommer fram till att påverkan är stor kan det finnas skäl till att engagera ytterligare personer med andra perspektiv. Förförståelsen, och om den har ändrats under arbetets gång, bör även tas upp i rapportens diskussion kring de kvalitativa fynden.
2.3 Urvalskriterier
Urvalskriterier formuleras och beskrivs för att på ett transparent sätt avgöra och avgränsa vilken forskning som är relevant för översiktens frågeställningar. Urvalskriterierna består av inklusions- och exklusionskriterier som anger villkor för om en studie som har sökts fram ska ingå i den systematiska översikten eller inte.
Vissa av urvalskriterierna blir automatiskt specificerade utifrån ett strukturerat format för frågeställningen. Oavsett frågeformat behöver även andra kriterier specificeras i protokollet. Exempel på ytterligare faktorer som kan behöva specificeras följer nedan:
2.3.1 Sammanhang
Här definieras i vilken sammanhang som insatserna ska ges. Exempelvis kan översikten behandla insatser som ges inom primärvården, kriminalvården, elevhälsan eller på särskilda boenden.
2.3.2 Studiedesign
Här definieras vilka studiedesigner som inkluderas.
2.3.3 Språk
Här definieras om endast primärstudier skrivna på specificerade språk inkluderas eller om alla artiklar tas med oavsett språk.
2.3.4 Publikationsformat
Här anger översiktsförfattarna vilka publikationsformat som primärstudierna ska ha för att bli inkluderade. Det kan vara aktuellt att enbart ta med publicerade artiklar som genomgått ett peer review-förfarande och har publicerats i vetenskapliga tidskrifter. Ibland kan översikter bredda sitt urval eller även ta med andra publikationstyper som myndighetsrapporter, konferensabstrakt, avhandlingar eller förhandsversioner, det vill säga artiklar som ännu inte publicerats men som finns tillgängliga via olika preprintsservrar.
2.3.5 Deltagarantal
Det kan också vara bra att fundera över om alla studier ska inkluderas, oavsett deltagarantal, eller om översiktens författare definierar ett minsta antal deltagare per grupp för inklusion.
3. Litteratursökning
Det här kapitlet handlar om litteratursökningen för en systematisk översikt, med fokus på sökning efter vetenskapliga artiklar i internationella ämnesdatabaser samt hur SBU arbetar med detta. Även kompletterande söksätt och sökning av så kallad grå litteratur tas upp.
I Kapitel 1 beskrivs riktlinjer för hur arbetet med systematiska översikter ska utformas och dokumenteras enligt PRISMA:s checklista [5]. Avsnitt 6 och 7 i denna checklista ger anvisningar om hur litteratursökningen ska rapporteras. För att upprätthålla kraven på översiktens transparens och reproducerbarhet ska alla källor som har använts vid sökningen anges och beskrivas. Det är också viktigt att ange tidpunkten för senaste sökning, eftersom denna ofta skiljer sig betydligt från när översikten publicerats. Fullständig dokumentation över sökstrategier i alla databaser ska vara tillgänglig och sökningarna ska vara rapporterade på ett sådant sätt att de går att repetera. Dokumentationen gör det möjligt att se om arbetet med litteratursökningen följer internationell standard. Förutom SBU:s metodbok och internationella metodböcker [29] [30] [31] [32] [33] som ger utförliga anvisningar om hur litteratursökningen ska utformas, forskas det aktivt inom området och en omfattande mängd vetenskapligt granskade metodartiklar publiceras. Mer övergripande information om sökning för systematiska översikter hittas bland annat i publikationer av Atkinson och medarbetare [34] samt Cooper och medarbetare [35]. Webbplatsen SuRe info (Summarized Research in Information Retrieval for HTA) som är en del av HTAi Vortal, är också en viktig källa för att följa den internationella metodutvecklingen.
3.1 Litteratursökningen – en del av projektprocessen
Det är en stor fördel att involvera informationsspecialisten redan i samband med att protokollet utformas, eftersom informationsspecialistens arbete med sökstrategin effektiviseras genom en ökad förståelse för frågans olika aspekter. Samtidigt kan dennes kunskap och erfarenheter av att omsätta en fråga till en sökstrategi bidra till att strukturera frågan. Studier har visat att när informationsspecialisten deltar i projekten ökar kvalitén på litteratursökningen, framför allt genom att sökningen blir reproducerbar i enlighet med PRISMA-statement [36].
Utgångspunkten för litteratursökningen är alltid den systematiska översiktens frågeställning, som struktureras i protokollet. Sökningen görs i flera steg: förberedande sökningar, testsökning och huvudsökning. Innan huvudsökningarna påbörjas ska protokollet vara fastställt och godkänt. I slutet av projektet görs en uppdateringssökning så att underlaget är så aktuellt som möjligt.
3.1.1 Före projektstart: Identifiera redan gjorda översikter
Innan ett projekt startar bör översiktsförfattarna kontrollera om liknande projekt pågår i någon annan HTA-organisation eller om det redan finns aktuella systematiska översikter som kan besvara fråga (Faktaruta 3.1). Oavsett om syftet med projektet är att identifiera så många som möjligt av de relevanta systematiska översikter som publicerats inom ämnet, eller om syftet är att identifiera primärstudier för att sammanställa en systematisk översikt, gäller att flera databaser måste sökas. De befintliga stora internationella ämnesdatabaserna behöver kompletteras med ett antal specialdatabaser och utvalda organisationers webbplatser. Viktiga databaser att söka i är exempelvis:
- Cochrane Library
- Epistemonikos
- International HTA database.
Databaser inom det sociala området som bör kontrolleras är till exempel:
- Social Care Online
- Campbell Collaboration.
Databaser för protokoll över systematiska översikter är till exempel:
- PROSPERO
- Campbell Collaboration
- Cochrane Library.
3.1.2 Testsökning
När arbetet med att ta fram en systematisk översikt ska börja formulerar informationsspecialisten först sökstrategier för testsökningar, i samarbete med projektgruppen. Testsökningarna hjälper bland annat till att klarlägga bland annat:
- hur relevanta studier är indexerade och vilka termer som förekommer i titel och abstrakt
- om frågorna är tillräckligt väldefinierade eller om de behöver förtydligas
- förväntad sökmängd
Vid testsökningen kontrollerar informationsspecialisten vilka ord och fraser som generellt används i abstrakt och titlar, författarnas egna ämnesord, vilka kontrollerade ämnesord som används samt om de verkligen fångar de översikter som är relevanta, och även de inkluderade artiklarna i översikterna.
Om ämnessakkunniga är involverade i arbetet kan de förse informationsspecialisten med centrala artiklar och översikter som är relevanta för frågeställningen, och som informationsspecialisten sedan kan använda för att utveckla sökstrategierna. Sakkunniga kan också bidra med begrepp och uttryck från sina respektive forskningsområden och bedöma om sökresultatet passar projektets fråga eller om sökstrategin behöver korrigeras.
3.1.3 Att skapa sökstrategier
En väl strukturerad och definierad frågeställning är avgörande för att informationsspecialisten ska kunna göra en effektiv litteratursökning. Att strukturera frågeställningen innebär helt enkelt att den delas upp i sina olika beståndsdelar och varje delanalyseras. Dokumentera de fattade besluten.
3.1.3.1 Skapa sökblock
En sökstrategi använder vanligtvis det som på engelska kallas för en ”building block strategy”, eller på svenska kan kallas blocksökning. Ett sökblock är alla tänkbara synonymer eller fraser som kan användas för att beteckna till exempel ett sjukdomstillstånd, en insats eller en studiedesign. Ett sökblock består både av indexeringsord, hämtade från ordlistan för den specifika databasen (tesaurus), och av fritextord. För att inte riskera att man missar studier omvandlar man bara några delar av PICO, till sökblock. Vanligen använder man sökblock för population och insats, men ibland lägger man även till ett block med termer för studiedesign. Vissa delar av frågeformatet (PICO, PIRO m.fl.) kan ibland också motsvaras av två block i sökningen. Om frågeställningen till exempel handlar om populationen ”äldre personer med urininkontinens” kan detta förslagsvis motsvaras av två block; ett block för äldre personer och ett block för urininkontinens. Först söker man varje block var för sig, och sedan kombinerar man dem med varandra för ett slutgiltigt sökresultat.
Det finns områden där man behöver komplettera blocksökningen med andra metoder för att utforma sökningen, till exempel vid komplexa insatser och vid utvärdering av diagnostiska test och bedömningsmetoder. Exempel på sådana är sökningar som består av flera smala sökstrategier, ofta med olika begränsningar, som man sedan kombinerar [33] [37].
3.1.3.2 Booleska operatorer och närhetsoperatorer för att kombinera sökord
De enskilda blocken av söktermer som ska ingå i sökningen är kombinationer av uttryck och termer med en boolesk operator. De flesta internationella databaser erbjuder också möjligheten att söka med så kallade närhetsoperatorer. Det ser lite olika ut hur dessa operatorer skrivs men information finns på respektive databas hjälpsida. Beroende på typ av närhetsoperator som används går det att styra i vilken ordning söktermerna får stå samt hur många ord som får stå mellan de angivna termerna. De booleska operatorerna ”AND”, ”OR” och ”NOT” ger till exempel databasen specifika instruktioner, och ska inte blandas samman med ordens vardagliga betydelse. Inom varje block av söktermer kombineras synonyma begrepp och andra näraliggande termer med den booleska operatorn ”OR”. Det ger databasen instruktionen att söka efter antingen den ena eller den andra söktermen. Genom att använda ”OR” garderar man sig för den mångfald av olika uttryck som kan användas i olika artiklars referenser för en och samma sjukdom, tillstånd, behov eller insats etcetera. Eftersom man söker på flera olika synonymer eller termer som representerar samma begrepp blir sökresultatet i sökningar med ”OR” mellan söktermerna större än om man bara hade sökt med ett specifikt sökord.
När varje block av sökord är sökta kombineras dessa med ett booleskt ”AND” mellan varje block (Figur 3.1). Instruktionen till databasen är då att minst ett ord ur varje block måste finnas i varje referens av sökresultatet. Nu specificeras sökningen och sökresultatet snävas in.
Ett smidigt sätt att kombinera block är att använda respektive funktion för sökhistorik som finns i de flesta databaser.
Den booleska operatorn ”NOT” ger databasen instruktionen att något inte ska förekomma i sökresultatet. Vanligen används NOT med stor försiktighet eftersom det finns en risk att man missar relevanta referenser. Om översikten exempelvis gäller typ 2-diabetes men inte typ 1-diabetes, och informationsspecialisten begränsar sökresultatet med ”NOT” för termer om diabetes typ 1, kan sökningen missa referenser som ska ingå i sökresultatet, om de till exempel nämner att ”de inte utvärderat typ 1”.
3.1.3.3 Parentessökning
Parenteser används i en sökstrategi där olika booleska operatorer ingår för att bestämma i vilken ordning databasen ska söka söktermerna och operatorerna.
Exempel: gambl* AND (excessive OR pathologic* OR addict* OR disorder* OR problem* OR heavy OR sever* OR compulsive)
Parentesen instruerar databasen att först utföra sökningen inom parentesen. Detta sökresultat kombineras sedan med söktermen gambl* och ett booleskt ”AND”.
3.1.3.4 Olika typer av sökord – indexeringsord och fritextord
En sökstrategi till en systematisk översikt ska bestå av både indexeringsord och fritextord, för att den ska fånga så många av de relevanta studierna som möjligt.
Indexeringsorden hämtas från den särskilda alfabetiskt hierarkiskt uppställda ordlista, tesaurus, som varje stor internationell ämnesdatabas har. MEDLINE:s (PubMed) tesaurus kallas exempelvis för MeSH, PsycINFO:s kallas “Thesaurus of Psychological Index Terms” och Sociological Abstracts tesaurus heter “Sociological Thesaurus”. Eftersom olika databasers ordlistor använder olika begrepp och uttryck, olika indexeringsord eller kontrollerade sökord, måste alla sökstrategier omformuleras och anpassas till varje specifik databas. Det går inte att överföra samma söktermer rakt av från en databas till en annan.
Huvuddelen av alla artikelreferenser som läggs in i en databas indexeras, det vill säga att ett antal termer ur en tesaurus läggs till varje referens. Referensen ”taggas”, antingen av en indexerare eller med hjälp av en automatiserad indexeringsprocess. Dessa indexeringsord ska beskriva innehållet i en artikel och kan ibland även ange studiedesign, publikationstyp med mera. En tesaurus syftar till att försöka skapa ett enhetligt sätt att benämna innehållet i en databas samtidigt som den skapar relationer mellan begreppen i det hierarkiska systemet.
Den andra typen av sökord kallas fritextord. Det är söktermer som man väljer för att matcha ord som förekommer i databasens referens till varje specifik artikel. Referensen är uppdelad i olika fält och en vanlig begränsning är att låta fritextorden matcha ord som finns i fälten för titlar, abstrakt och författarnas egna ämnesord.
Fördelen med att söka med hjälp av databasernas indexeringsord är att de är enhetliga. Artikelns abstrakt ska idealiskt beskriva en artikels innehåll, men att söka på ord i en beskrivande text kan leda till irrelevanta träffar. Med indexeringsord behöver den som söker inte ta hänsyn till synonymer och stavningsvarianter, vilket krävs med fritextord. Detta är en stor fördel. En nackdel kan vara att de ibland är för generella för att passa den aktuella frågeställningen. Artikelförfattarens val av titel och hur abstraktet är skrivet kommer ha betydelse för hur artikeln indexeras, vilket innebär att den mänskliga faktorn vad gäller felindexering också måste beaktas.
Fördelar med fritextord är att även studier som ännu inte hunnit bli indexerade fångas in. Det betyder att för att fånga de allra senaste publicerade artiklarna i till exempel den viktiga databasen MEDLINE/PubMed, räcker det inte att söka med indexeringsord. En kombination av indexeringsord och fritexttermer kommer alltså att behövas. Fritexttermer kan också vara till hjälp när databasens indexeringsord är för generella för att passa den aktuella frågeställningen, exempelvis vid specifika namngivna insatser.
3.1.3.5 Identifiera söktermer
En sökstrategi identifierar både indexeringstermer och fritexttermer för varje block. Några metoder för att identifiera termer är att:
- Använda sökstrategier som andra utformat, helt eller delvis.
- Titta i databasens tesaurus efter tips på synonyma termer. I MeSH kallas de ”entry terms”.
- Titta i svenska MeSH, som är utvecklad av och underhålls av Karolinska Institutets bibliotek.
- Använda en tesaurusterm som en fritextterm.
- Analysera en samling nyckelartiklar som ämnesmässigt motsvarar det man söker efter, antingen manuellt eller med ett ordfrekvensverktyg, till exempel PubReMiner.
- Använda funktionen ”Related articles” i till exempel PubMed som ger tips på andra artiklar relaterade till sökresultatet.
- Göra en citeringssökning.
- Fråga sakkunniga inom ämnet.
- Söka på internet.
3.1.3.6 Avgränsningar i sökningen
Formuleringen av frågeställningens PICO, eller motsvarande, innebär att frågeställningens avgränsningar blir tydliga. Avgränsningar kan exempelvis vara populationens ålder, kön, språk, begränsningar i tid eller studiedesign.
Nästa fråga blir om dessa ska ingå i sökstrategin eller gallras fram vid genomgång av abstrakt. Frågan om huruvida olika avgränsningar ska göras i litteratursökningen eller inte handlar till stor del om att balansera mellan att i möjligaste mån minimera risk för bias och samtidigt ta hänsyn till tidsramar och resurser. Alla beslut om avgränsningar tas gemensamt av översiktsförfattarna.
Internationella databaser har inbyggda funktioner för avgränsningar, så kallade Limits. I en del databaser, som till exempel MEDLINE/PubMed, är användandet av vissa Limits liktydigt med att söka med MeSH-termer, vilket betyder att man inte får träff på nya artiklar som ännu inte är indexerade. Det gäller bland annat funktionerna Ages, Article type och Species. Andra avgränsningar som språk och tid är inte kopplade till MeSH, utan man får träff även på oindexerade artiklar. Om Limits används i sökningen, kontrollera noga i hjälpsidorna för respektive databas vad som gäller.
3.1.3.6.1 Språk
I de flesta databaser är abstrakten på engelska, även om artikeln är skriven på ett annat språk. Det är lätt att avgränsa sökningen till olika språk. En risk med en sådan begränsning är att relevanta studier på andra språk inte fångas in av sökningen. Cochranes handbok rekommenderar därför att man inte gör någon språkbegränsning och [33] hänvisar bland annat till studier som har gjorts av Egger och medarbetare från år 1997 [38] och Morrison och medarbetare från år 2012 [39]. Flera studier visar dock att riskerna att missa särskilt många relevanta studier med sökning endast på engelska inte är särskilt stora [39] [40] [41].
3.1.3.6.2 Tidsperiod
Begränsningar i tid handlar oftast om startår, det vill säga hur gamla studierna ska vara. Det kan finnas goda skäl att begränsa tidsperioden i sökstrategin. Prata med sakkunniga som känner forskningsområdena väl. Om det finns en tidsbegränsning så ska grunden till det beslutet anges. Ett alternativ är också att söka utan tidsbegränsning och sedan sätta den i efterhand. Mot slutet av projektet bör sökningarna uppdateras sökningarna för att få ett så aktuellt sökresultat som möjligt. Det är viktigt att datumet för den senaste sökningen framgår tydligt.
3.1.3.6.3 Studiedesign
Översiktsförfattarna behöver besluta om primärstudiernas forskningsdesign ska ingå i själva sökstrategin eller bara vara en del av de inklusionskriterier som hanteras i abstraktgranskningen, det vill säga att man väljer att ta med eller exkludera en studie baserat på i förhand fastställda kriterier då vid gallring av sökresultatets alla abstrakt. Att begränsa sökningen till studiedesign innebär, precis som med andra avgränsningar, en risk att missa relevant litteratur. För många typer av studiedesign finns det utvärderade sökfilter.
3.1.3.6.4 Sökfilter
Sökfilter (eng. search filters, hedges) är sökstrategier som redan är utformade och utvärderade för att fånga en viss typ av studier, till exempel en viss studiedesign. Sökfiltren är testade mot en guldstandard av relevanta artiklar och räknar ut de olika sökstrategiernas så kallade recall och precision, se Faktaruta 3.2. Sökfiltren är utformade för att passa olika databaser men olika versioner av samma databas kan ha olika filter. Ett filter som är gjort för PubMed passar till exempel inte Ovid Medline.
Sökfiltret kombineras med sökstrategins övriga block. Kontrollera använda sökfilter regelbundet, eftersom nya indexeringstermer tillkommer, och termer blir föråldrade. För systematiska översikter ska sökfiltren generellt sett ha en hög recall, det vill säga fånga så många relevanta studier som möjligt.
En betydande samling sökfilter för olika ändamål finns vid ISSG Search Filter Resource, där informationsspecialister i InterTASC Information Specialists' Sub-Group Search Filter Resource, samlar, utvärderar och publicerar sökfilter.
3.1.3.7 Litteratursökningens omfattning – en balansgång
Förhoppningen är att systematiska översikter baseras på all existerande relevant litteratur. Den optimala litteratursökningen för ett sådant projekt vore därför en sökning som både hittar alla relevanta studier och ingenting annat än de relevanta studierna, det vill säga en sökning med 100 procents precision. I praktiken är detta i princip omöjligt att uppnå.
Precision och recall är två mått som som beskriver sökresultatet, och därför kan de räknas ut först efter att sökningen utförts och resultatet har granskats. Ett sökresultat kan ha mer eller mindre hög recall, och mer eller mindre hög precision, och dessa mått står nästan alltid i motsatsförhållande till varandra (Faktaruta 3.2). Medan en sökstrategi konstrueras är de okänt hur den kommer att prestera. Då handlar det snarare om att ha en ansats i sökarbetet som möjliggör för en viss typ av resultat. Det leder till antingen så kallade breda eller smala sökningar [42].
3.1.4 Breda och smala sökningar
3.1.4.1 Bred sökning
En bred sökning är en strukturerad och uttömmande litteratursökning för att fånga alla potentiellt relevanta studier (Faktaruta 3.3). I arbetet med en systematisk översikt ska litteratursökningen vara både strukturerad och ha en uttömmande ansats. Sökningen behöver alltså vara bred.
Att sökningen ska vara strukturerad innebär att den ska följa både en förutbestämd sökmetod och uppsatta kriterier (till exempel PICO), samt genomföras i ett antal förutbestämda databaser. Till det strukturerade arbetet hör också att tillvägagångssättet är transparent och att det dokumenteras.
Att sökningen ska vara uttömmande innebär att den ska ha hög recall, det vill säga att sökningen har hittat så många som möjligt av de studier som svarar på frågan. Vid breda sökningar behövs hänsyn tas till att indexeringen kan variera eller brista, att vissa studier kan sakna indexering och att terminologin kan variera i titel och abstrakt.
Inför en sökning vet förstås ingen hur många relevanta studier som finns och vilka de är, vilket innebär att recall är svårt att räkna ut. En bred sökning ökar möjligheterna att finna det mesta. Nackdelen är att ju bredare en sökning är, desto fler irrelevanta träffar kommer den att fånga, och därför blir sökningens precision lägre (Figur 3.2). Systematiska översikter har i genomsnitt en precision på tre procent [43].
3.1.4.2 Smal sökning
För litteratursökningar som är till för andra ändamål än systematiska översikter, behöver sökarbetet inte vara lika uttömmande (Faktaruta 3.3). Det kan exempelvis handla om sökningar till narrativa översikter eller andra typer av kunskapssammanställningar. Det kan också handla om litteratursökningar där syftet helt enkelt är att bara hitta några bra artiklar om ett ämne och där precisionen därför väger tyngst. Vid sådana arbeten kan man alltså göra medvetna avgränsningar i sökningen. Det innebär att en sökning kan vara både strukturerad, det vill säga följa en noggrann metodik, och samtidigt vara precis. I boken ”Systematic approaches to a successful literature review” och i en publicerad rapport beskriver Booth och medarbetare utmärkande kriterier för olika typer av översikter och utformning av litteratursökningar med olika syften [44].
Ett exempel på en mycket smal litteratursökning är att söka efter två ord i artikelns titelfält och kombinera dessa med ett booleskt ”AND”. En sådan sökning ger antagligen få träffar och träffarna bör till stor del vara relevanta. Samtidigt innebär en sådan sökning att stora delar av den relevanta litteraturen inte kommer med eftersom man inte tagit hänsyn till varierande terminologi och endast sökt efter dessa ord i titelfältet. Om de två sökorden inte är helt relevanta för frågeställningen finns det också en risk att den smala sökningen inte alls träffar ”mitt i prick” utan snarare helt utanför.
3.1.5 Number needed to read
Sökningens precision kan också uttryckas som number needed to read (NNR), ett mått som tar i beaktande antalet abstrakt man behöver granska för att finna en relevant artikel (NNR=1/precisionen). Om projektets syfte är att besvara en frågeställning där det finns få publicerade studier, är det ganska okomplicerat att göra en bred sökning. En sådan sökning riskerar inte att missa särskilt många relevanta artiklar, samtidigt som arbetsbördan inte behöver bli så stor för dem som granskar de abstrakt sökningen identifierat.
Om projektet däremot vill besvara en frågeställning inom ett område där det finns ett stort antal publicerade studier ställs frågan om sökningens bredd på sin spets. Hur många abstrakt är projektgruppen beredda att läsa igenom manuellt för att vara säkra på att ingenting missats?
Hur smal eller bred sökningen är blir en fråga om hur mycket tid som finns till förfogande, hur många personer som arbetar i projektet och vem som ska gallra bland abstrakten. Ibland går det kanske snabbare och enklare att granska ett stort antal referenser jämfört med den tid det tar att snäva in sökningen på ett sätt som gör att man inte missar alltför många relevanta studier. Å andra sidan är alternativet med ett för stort antal sökträffar med högt NNR (dvs att granska ett stort antal irrelevanta artiklar för att hitta en relevant) inte heller oproblematiskt. Den mänskliga faktorn gör att det kan vara svårt att hålla koncentrationen uppe vid granskning av ett stort antal abstrakt, och på så vis riskerar man också att relevanta studier sållas bort av misstag. Det behöver dock inte ta alltför mycket tid i anspråk att granska en abstraktlista, trots att antalet abstrakt vid första anblicken kan se ut att vara ohanterbart:
”At a conservatively-estimated reading rate of two abstracts per minute, the results of a database search can be ‘scan-read’ at the rate of 120 per hour (or approximately 1 000 over an 8-hour period)” [45].
3.1.6 Att söka studier med kvalitativ ansats
Hur litteratursökningarna utformas för synteser med kvalitativ ansats, är helt beroende av vilken typ av syntes (Avsnitt 7.7) projektet väljer att göra. Booth och medarbetare publicerade år 2016 ett stöd för val av syntesmetod, och ett stöd för planering av sökning av studier med kvalitativ ansats. Stödet kallas 7S och står för
- Sampling
- Sources
- Structured questions
- Search procedures
- Strategies
- Supplementary searching
- Standards of reporting [46].
Om syntesen syftar till att beskriva ett fenomen är det av stor vikt att alla relevanta studier identifieras, då kommer litteratursökningen att vila på samma grund som den systematiska översikten. Om syftet däremot är att tolka data eller att generera teori kan sökningen också vara mer uttömmande, men den kan också vara upplagd på ett iterativt sätt [47].
För frågor som handlar om erfarenheter och upplevelser av att leva med ett visst tillstånd eller om bemötande kan sökstrategin bestå av ett block för population och ett block med söktermer för erfarenheter och upplevelser, respektive bemötande. Om en smalare sökning ska göras kan ytterligare ett block med termer för studiedesign läggas till. Andra frågor kan handla om erfarenheter och upplevelser av en insats, eller upplevelser av ett tillstånd eller en särskild insats. Frågeställningen kan också handla om professionens attityder, erfarenheter eller upplevelser.
Det kan vara mer tidskrävande att utforma sökstrategier för att identifiera studier med kvalitativ ansats inom det samhällsvetenskapliga området, där socialt arbete och funktionshinderforskning ingår, än för studier med kvantitativ ansats. Det kan bero både på författarnas val och på forskningsområdets tradition att namnge en studie och skriva abstrakt. Det kan också saknas viktig information ur ett sökperspektiv, som information om studiedesign, eller så används många olika begrepp för samma insats eller tillstånd. Andra orsaker kan vara brister i hur ämnesorden har indexerats i databasen, eller att tesaurusen i en databas innehåller för få kontrollerade ämnesord inom området [48] [49].
För sökning efter studier med kvalitativ ansats finns en användbar lista över sökfilter för det på ISSG Search Filter Resource.
3.1.7 Databaser och andra informationskällor
Det är alltid frågeställningen som styr valet av databaser, oavsett vilken typ av studier som är i fokus. Om sökningarna av studier med kvalitativ ansats är en del av en systematisk översikt, utförs litteratursökningen i samma databaser som huvudsökningen, ofta med tillägg av databaserna CINAHL och Scopus [49]. PsycINFO kan utgöra ytterligare ett tillägg. En annan möjlighet är att söka i flera databaser samtidigt via ett gemensamt gränssnitt, exempelvis EBSCO.
Projektgruppen behöver diskutera om grå litteratur ska ingå i sökningen. Grå litteratur är material som inte riktigt går att kategorisera som de vanligaste publikationstyperna som man söker efter när man söker efter studier. Det kan till exempel handla om rapporter, avhandlingar, manuskript eller kliniska riktlinjer.
Det finns dessutom kompletterande metoder för att identifiera studier. Framför allt är det en god idé att kontrollera referenslistorna i relevanta studier och dokument.
Se Faktaruta 3.4 för exempel på databaser som innehåller både systematiska översikter och primärstudier inom hälso- och sjukvårdsområdet respektive socialt arbete.
3.1.7.1 Sökningar till systematiska översikter
Att söka till systematiska översikter görs i flera databaser. Hur många och vilka som är lämpligast beror på frågeställningen. För frågor inom hälso- och sjukvårdsområdet kan det räcka med sökningar i Ovid MEDLINE eller PubMed, Embase och Cochrane Library. För multidisciplinära frågor och frågor inom socialt arbete och funktionshinderområdet används vanligen APA PsycINFO, SocINDEX, Sociological Abstract/Social Services Abstracts eller en kombination av dessa samt Ovid MEDLINE eller PubMed. Scopus har ofta visat sig vara en bra kompletterande databas.
3.1.7.2 Kompletterande söksätt
Även om översikten huvudsakligen kommer identifiera relevanta studier i elektroniska databaser, behövs också kompletterande söksätt. Den viktigaste metoden är ofta att gå igenom referenslistorna i relevanta systematiska översikter och primärstudier [50] [51]. Vid behov går det också att komplettera sökningarna med citeringssökningar i Scopus och den kostnadsfria Google Scholar. En annan stor licensierad citeringsdatabas är Web of Science. Det är viktigt att redovisa vilka kompletterande söksätt som har använts. För- och nackdelar med olika kompletterande sätt att hitta relevanta studier finns i en artikel av Cooper och medarbetare [52].
3.1.8 Huvudsökning
När sökstrategin är genomarbetad är det dags för huvudsökningen. De flesta internationella metodböcker inom området, till exempel Cochrane Handbook for Systematic Reviews of Interventions [53] och Developing NICE guidelines [54], anger att det inte räcker att bara söka i en databas när syftet är att hitta alla studier som besvarar frågeställningen. För att undvika risk för snedvridning av översiktens resultat genom missade artiklar behövs sökning i flera databaser [55] [56] [57].
Insatser inom socialt arbete, funktionshinderområdet och det beteendevetenskapliga området är ofta multidisciplinära. Då kan det krävas mer specifik kunskap om både vilka olika databaser som finns tillgängliga och vilka andra källor som kan vara lämpliga för projektet. Vilka databaser som är lämpliga att söka i beror helt på frågeställningen.
Eftersom samma referens kan vara indexerad, eller ”taggad”, på olika sätt i olika databaser kan kompletterande sökningar vara värdefulla även av den anledningen. Men det går inte att kompensera för en bristfällig sökstrategi genom att söka i flera databaser. Det går inte heller att använda samma sökstrategi rakt av för olika databaser eftersom olika databaser har olika krav på sökstrategins format. När en första sökning i den databas som har mest detaljerad ämnesordlista är utförd, blir nästa steg därför att anpassa sökstrategin till de andra databaserna. Sökning sker i första hand i de databaser som är angivna i protokollet, men kompletteras med andra databaser efterhand om det behövs. Om hälsoekonomiska och etiska aspekter ska ingå i utvärderingen söks dessa utifrån formulerade sökstrategier i detta steg.
3.1.9 Litteratursökningar för ekonomiska aspekter
Det kan vara tillämpligt att inkludera ekonomiska aspekter i den systematiska översikten då dessa kan ge information om vilka resurser som krävs för att exempelvis införa en insats, se Kapitel 11. Sökstrategin för att hitta studier med ekonomiska aspekter följer i stort upplägget för att hitta det övergripande projektets studier, och kan bestå av ett block för populationen, ett block för insatsen och ett block med ekonomiska termer.
Ibland, till exempel om det finns få studier men många insatser, kan en förenklad sökstrategi bestå av ett block för populationen och ett block med ekonomiska termer.
3.1.9.1 Databaser
För ekonomiska utvärderingar inom hälso- och sjukvård rekommenderas sökningar i databaserna Embase, International HTA database, Ovid MEDLINE/PubMed och Scopus [58] [59].
För ämnesområdet socialt arbete och andra närliggande områden finns det betydligt mindre publicerat kring sökningar av ekonomiska utvärderingar, men ett exempel är ett bokkapitel av Glanville och medarbetare, ”Searching for evidence for cost-effectiveness decisions” [60]. För frågeställningar om insatser inom socialtjänsten gäller vanligen att sökningarna görs i samma databaser som huvudsökningen. Ibland finns behov av att lägga till en eller flera databaser med ett generellt innehåll, såsom Scopus, om den inte redan ingår i huvudsökningen. Andra tänkbara databaser med generellt innehåll är Web of Science eller Academic Search Elite, och en kontroll i International HTA database är också viktig att göra.
Det går också att använda kompletterande söksätt, såsom att kontrollera referenslistor, webbsidor och olika register.
3.1.9.2 Sökfilter för hälsoekonomi
Vid hälsoekonomiska sökningar kombineras en ämnessökning med ett sökfilter som innehåller termer för ekonomiska aspekter. Ett vanligt filter i sammanhanget är NHS EED, som är utvärderat och publicerat av den kanadensiska HTA-organisationen Canadian Agency for Drugs and Technologies in Health (CADTH). I en utvärdering av flera filter visade sig det här filtret ha den bästa balansen mellan recall och precision [61].
Det finns ett flertal andra utvärderade relevanta hälsoekonomiska sökfilter. Hur de presterar med avseende på precision och recall varierar. Det finns filter med högre precision och lägre recall som går bra att använda om sökningen inte behöver vara uttömmande. [62].
Här finns en lista över sökfilter för ekonomiska utvärderingar (ISSG Search Filter Resource).
3.1.10 Att söka opublicerade data och övrig grå litteratur
Grå litteratur är material som inte riktigt går att kategorisera som de vanligaste publikationstyperna vid sökning efter studier. Till grå litteratur räknas bland annat avhandlingar, konferenspublikationer och rapporter som inte är utgivna av kommersiella förlag.
The Third International Conference on Grey Literature (1997) definierade grå litteratur som
”litteratur som produceras på alla nivåer i det offentliga, på universitet, företag och industri, oavsett i vilket format, och som inte är kontrollerad av kommersiella förlag och som inte har publicering som viktigaste aktivitet”.
En särskild typ av grå litteratur är opublicerade data. Det är data från studier som antingen kan vara i form av icke-publicerade abstrakt eller fulltexter (unpublished data), eller data som finns men som forskarna har valt att inte ta med i sina publicerade abstrakt eller fulltexter (missing data). Risken för publikationsbias har länge varit känd, det vill säga att nollresultat eller negativa resultat i studier inte publiceras i samma utsträckning som positiva resultat. Då finns risk för snedvridning av den systematiska översikten resultat. Det betyder att det finns en risk för överskattning av de publicerade positiva insatseffekterna eftersom de eventuella negativa effekterna av insatserna inte publiceras i vetenskapliga tidskrifter [63] [64] [65] [66] [67] [68]. Se avsnitt 7.1.9 för mer information om publikationsbias.
Opublicerade data kan finnas i flera olika typer av källor, till exempel konferenshandlingar, olika register för kliniska studier, läkemedelsbolagens kliniska studierapporter (eng. clinical study reports, CSR) och i handlingar publicerade av tillståndsgivande myndigheter.
Frågan om sökning av opublicerade data till utvärderingar av effektstudier har uppmärksammats och de flesta internationella metodböcker tar upp det som obligatoriskt eller mycket önskvärt [29] [30] [69] [70] [71] [72]. En av anledningarna till det är att data som tidigare varit svåråtkomliga nu har blivit alltmer tillgängliga genom högre krav på att pågående kliniska studier ska registreras i register och att läkemedelsbolagens tidigare svåråtkomliga rapporter av kliniska studier delvis publiceras på webbplatsen hos den myndighet som utfärdar tillstånd för att använda till exempel ett nytt läkemedel. En CSR är en detaljerad beskrivning av resultaten och hur arbetet med den kliniska prövningen har gått till, och som lämnas av läkemedelsbolagen som underlag när de söker tillstånd för att ge ut läkemedlet från en myndighet [68] [73]. Den myndighet som ger ut sådana tillstånd inom EU är European Medicines Agency (EMA) och den amerikanska motsvarigheten är US Food & Drug Administration (FDA).
Den internationella litteraturen är inte entydig om i vilken utsträckning opublicerade data kan ändra resultatet av exempelvis en metaanalys. Eftersom det kan vara mycket resurskrävande att söka efter opublicerade data, diskuteras också om det är möjligt att bestämma under vilka förutsättningar omfattande, detaljerade rapporter som exempelvis CSR ska sökas [64] [65] [67].
3.1.10.1 Konferensabstrakt
Ungefär hälften av alla studier som publiceras som ett konferensabstrakt kommer senare också att publiceras i fulltext [74]. I den vetenskapliga litteraturen finns motstridiga uppgifter om värdet av just konferensabstrakt för att undvika publikationsbias. Li och medarbetare (2017) kom i sin genomgång fram till att konferensabstrakt ofta är ofullständiga och kan innehålla motstridiga uppgifter jämfört med de publicerade artiklarna och att de därför kan vara vilseledande [78] [79]. Scherer och Saldanha (2019) menar å andra sidan att det finns exempel på när konferensabstrakt har haft betydelse för en översikts slutresultat och inte bara för resultatets precision. Det kan vara värt att söka efter dem, särskilt när det inte finns så många studier eller om flera studier kommer fram till olika resultat [75]. Konferensabstrakt är sällan fackgranskade på samma sätt som en peer reveiw-publikation, och den fulltexten är alltid att fördra om båda kommer med i sökningen.
3.1.10.2 Register för kliniska studier
Två vanliga register för kliniska studier är: ClinicalTrials.gov och WHO:s databas ICTRP (International Clinical Trials Registry Platform). ICTRP innehåller ett antal regionala register, inklusive ClinicalTrials.gov, men har mindre utvecklade databasfunktioner. Därför ger kombinationen av dessa två register ett bättre sökresultat. Registren innehåller både pågående och avslutade kliniska prövningar. Flera studier har visat att registren bör sökas. En studie av Baudard och medarbetare från år 2017 visade att i 43 procent av de systematiska översikter som författarna kontrollerade kunde ytterligare RCT-studier identifieras genom sökningar i register för kliniska studier. De gjorde sedan om 14 metaanalyser, med de nya studierna inkluderade, vilket resulterade i främst en ökad precision av resultaten [76] [77] [81] [82] [83] [84].
3.1.10.3 CSR och tillståndsgivande myndigheters data
Flera studier har kontrollerat om opublicerade data tillför något och i så fall vad. Det resultatet har sedan satts i relation till resurs- och tidsåtgång. I en artikel av Schmucker och medarbetare (2017) kom forskarna fram till att opublicerade data har en oklar betydelse för metaanalysers resultat i medicinsk forskning och därför måste översiktsförfattare värdera om de ska göra det resurskrävande arbetet med att söka opublicerade data överhuvudtaget [78]. Halfpenny och medarbetare kom år 2016 fram till en liknande slutsats när det gäller sökningar i olika källor som register för kliniska prövningar (CSR) och i myndigheters handlingar. Eftersom det är mycket resurskrävande att söka i alla källor, rekommenderar författarna att arbetet ska ske stegvis med en noggrann genomgång av sökresultatet. Rekommendationen är att börja med att söka i register, därefter handlingar från tillståndsgivande myndigheter och till sist de omfattande och detaljerade CSR-rapporterna [79]. I en annan studie av Jefferson och medarbetare från år 2018 identifierade författarna kriterier för när mer resurskrävande sökningar efter till exempel CSR-rapporter ska göras. Bland kriterierna finns kostnaden för insatsen, sjukdomsbördan (eng. burden of disease), antalet människor som kommer att kunna använda produkten, om produkten är ny, om läkemedelsgruppen är ny eller om en stor del av RCT-studierna är finansierade av läkemedelsbolagen [68].
3.1.10.4 Sökning av grå litteratur inom socialt arbete och andra tvärvetenskapliga ämnesområden
Vid sökning efter studier inom ämnesområden som socialt arbete kan det finnas anledning att söka efter grå litteratur eftersom det inte alltid är den vetenskapligt granskade artikeln som är den självklara publikationstypen. Det gäller ofta inom olika tvärvetenskapliga områden. I en utvärdering som SBU har gjort framkom att det var värdefullt att identifiera ”genomförbarhetsstudier” kring flera av de utvärderade insatserna, även om alla inte var av hög kvalitet. På så sätt kunde man få en överblick över vilka rapporter som har gjorts i Sverige via den grå litteratur som identifierades. Det är också ett sätt att kartlägga var det saknas studier [80]. Erfarenheterna från SBU har också stöd i litteraturen. Adams och medarbetare från år 2016 menar att den grå litteraturen kan ge viktig information som handlar om sammanhanget: hur, varför och för vilka en insats kan vara effektiv [81]. En annan studie av Mahood och medarbetare (2014) framhåller att sökning av grå litteratur kan ge en överblick över vilka insatser som finns för ett visst problem, vilka utvärderingar som har gjorts och inom vilka områden studier saknas [82]. En annan viktig aspekt som tas upp i studien är att det kan vara utmanande att söka efter grå litteratur och samtidigt upprätthålla den systematiska översiktens krav på att litteratursökningen ska vara systematisk, transparent och reproducerbar.
3.1.11 Uppdateringssökning
Eftersom processen med att ta fram en systematisk översikt kan vara lång finns ofta behov av att göra en uppdaterad sökning i slutet av projektet. Det är för att säkerställa att inga nya relevanta studier har tillkommit under arbetets gång. Det är viktigt att datumet för den senaste sökningen framgår tydligt. Riktmärket från Cochrane handbook är att det inte bör vara längre än 6–12 månader från sista sökdatum till dess att översikten publiceras.
3.1.12 Sökdokumentation
Två bärande principer i arbetet med systematiska översikter är att transparens och reproducerbarhet ska genomsyra hela arbetsprocessen. Det betyder att sökdokumentation och annan information om hur arbetet med litteratursökningen har utförts ska finnas tillgängligt så att den som vill kan ta del av det i den systematiska översikten. Brister i rapporteringen av arbetet med litteratursökningen har uppmärksammats inom flera områden [83] [84] [85]. Ett krav i PRISMA statement är att en reproducerbar sökdokumentation för alla databaser ska finnas tillgänglig i översikten, och att eventuella avgränsningar i sökningen och sökdatum finns med. Atkinson och medarbetare har år 2015 arbetat fram en detaljerad checklista på hur arbetet med litteratursökningar kan presenteras och dokumenteras [34], se Faktaruta 3.5. Exempel på hur SBU dokumenterar sina sökstrategier presenteras i Faktaruta 3.6.
3.1.1.3 Verktyg för referenshantering
Sökresultaten importeras därefter vanligen till ett referenshanteringsprogram där dubblettkontroll görs, men kan även importeras direkt i många program som används för relevansgranskning eller för hela processen, till exempel Covidence. Exempel på program för referenshantering är EndNote och Zotero. När alla sökningar är gjorda och alla dubbletter är borttagna är det dags för nästa steg i processen: granskningen av de framsökta abstraktens relevans (Kapitel 4).
4. Bedömning av relevans
Det här kapitlet handlar om bedömning av relevansen för de artiklar som fångats upp i litteratursökningen.
Urvalet av studier görs i flera steg och bygger på att minst två personer först oberoende av varandra bedömer studierna varefter en gemensam slutbedömning görs av om en studie ska ingå eller exkluderas (konsensusförfarande).
De studier som ska ingå i översikten måste vara relevanta, det vill säga uppfylla PICO, PIRO, SPICE eller motsvarande samt övriga urvalskriterier. Vid tillämpning av breda sökkriterier kommer sökresultaten innehålla en stor mängd referenser som inte är relevanta. I ett första steg gallras sådana studier bort utifrån information från titel och abstrakt. Exempel på program som kan användas vid relevansgranskning är Rayyan, SR accelarator, EPPI Reviewer eller Covidence. Artiklar som av titel och abstrakt att döma skulle kunna uppfylla urvalskriterierna beställs i fulltext. Observera att det enligt PRISMA inte är nödvändigt att sammanställa orsak till att abstrakts exkluderas utan det räcker att notera antalet.
I ett andra steg granskas fulltextartiklarna. De studier som inte bedöms vara relevanta exkluderas. Det kan finnas flera anledningar till att de inte uppfyller PICO, SPICE eller motsvarande. Studien kan ha fel publikationsformat, till exempel brev till redaktören, eller vara av diskuterande natur utan egna resultat. Dubbelpublikationer kan förekomma, det vill säga att samma studie publiceras i två tidskrifter, och då ska den ena exkluderas. Om de båda granskarna i detta skede tycker olika behöver en tredje person (eller en hel projektgrupp) involveras för att komma till ett beslut. När granskarna kommit överens om vilka artiklar som ska exkluderas upprättas en förteckning över dessa där orsakerna till att de har gallrats bort anges. Observera att endast en orsak ska anges per artikel, även om det kan finnas flera skäl till att exkludera artikeln.
5. Bedömning av risk för bias
Detta kapitel handlar om att bedöma risken för att resultaten i de inkluderade studierna kan ha snedvridits, det vill säga risken för bias. Risk för bias kan uppstå i såväl design av studien, som i dess genomförande. Bedömning av risk för bias innehåller subjektiva inslag och det är därför är det viktigt att försöka minska graden av subjektivitet. Ett sätt att minska subjektiviteten är att minst två personer granskar studierna, först oberoende av varandra och därefter gemensamt med en samordnad bedömning. Målet med den samordnade bedömningen är att nå konsensus i bedömningen. Om personerna inte är eller kan bli överens om en enad bedömning kan en eller fler andra granskare avgöra vilken bedömning som ska gälla.
Ett annat sätt att minska subjektiviteten är att använda standardiserade granskningsmallar eller checklistor som stöd för bedömningen, och att utgå från riktlinjer för rapporters genomförande. Bedömningen av risk för bias kan underlättas genom att så tidigt som möjligt gemensamt gå igenom aktuella granskningsmallar samt att stämma av de bedömningar och avväganden som gjorts för några få utvalda artiklar.
SBU har valt att i möjligaste mån använda internationellt vedertagna granskningsmallar varav många är framtagna av Cochrane-organisationen. Mallarna från Cochrane är anpassade för tillförlitlighetbedömning med GRADE eller CERQual. Läsa mer om det i Kapitel 8.
Samtliga mallar har en likartad uppbyggnad och består av domäner (eng. domains). Varje domän representerar vanligen en typ av risk för bias, till exempel selektionsbias och bias som följd av selektiv rapportering. För varje domän finns hjälp i form av ett antal stödfrågor (eng. signalling questions). Risken för bias bedöms utifrån svaren på stödfrågorna och vad eventuella brister kan betyda för utfallet. Vikten av en bedömd risk kan variera både beroende på forskningsområde och sammanhang. Antalet enskilda bedömningar (det vill säga en numerisk summa) bör inte ligga till grund för en övergripande bedömning av risk för bias. Det viktigaste är att ta hänsyn till om den gjorda bedömningen visar att det finns en risk att resultatet kan snedvridas.
Klassificeringen av risk för bias varierar mellan mallarna och graderas vanligen mellan hög, måttlig och låg risk. För icke-randomiserade studier finns även bedömningen oacceptabelt hög risk för bias. Studier som bedömts ha oacceptabelt hög risk för bias inom en domän bör lämpligen inte tas med i den vidare analysen då resultatet på ett påtagligt sätt kan snedvridas.
Granskningen av risk för bias avser dels risken per domän, dels den övergripande risken för bias per utfall. Resultatet från ett utfall som bedömts ha övergripande hög risk för bias kan undantas från att tas med i den vidare analysen då detta kan snedvrida resultatet. Det är bra att tidigt i arbetet, till exempel i protokollet, överväga hur detta påverkar det fortsatta arbetet med översikten (Faktaruta 2.1 och Avsnitt 5.1.3). Det kan vara värt att notera att även om studier med hög risk för bias inte är med i analysen bör de dock alltid redovisas.
Denna del av metodboken beskriver översiktligt dels vilka risker som finns för primärstudier, dels hur mallarna bör användas. Texten ska alltså ses om en bakgrund och ett komplement till de detaljerade instruktioner som finns beskrivet för respektive mall. För granskning av risk för bias för systematiska översikter se Kapitel 10 om tillämning av publicerade systematiska översikter.
För mer detaljerad information om olika typer av bias se https://catalogofbias.org/.
5.1 Risk för bias i studier där deltagarna har fått en insats
Studier som utvärderar effekter av insatser har oftast en eller flera jämförelsegrupper. När studiedeltagarna slumpmässigt delas in i insats- eller jämförelsegrupp kallas studien för randomiserad kontrollerad studie (RCT, randomised controlled trial). Detta avsnitt beskriver hur risken för bias systematiskt bedöms i RCT-studier och i icke-randomiserade studier (NRSI, non-randomised studies of interventions), se Tabell 5.1 utifrån de två mallar som SBU använder (Faktaruta 5.1). Det är värt att notera att NRSI-mallen är en mer generell mall som till exempel omfattar både tilldelning och beslut om insats såväl som människors egna val (till exempel rökning). Den kan användas för bias-bedömningar av bland annat kohortstudier, före/efter-designer, och avbrutna tidsserier. Ibland kallas sådana studier med sådana designer sammanfattande för observationsstudier.
Båda mallarna innehåller frågor kopplade till sex domäner. De aspekter som tas upp i det första domänen, om fördelning mellan grupperna, är det som skiljer en RCT från en NRSI. De övriga domänerna är gemensamma för båda studietyperna, se Tabell 5.1 Domän 6 om jäv och intressekonflikter finns inte med i granskningsmallarna från Cochrane (ROB 2 och ROBINS-I) utan är ett tillägg som SBU valt att ta med.
Domän | RCT | NRSI |
---|---|---|
1 | Gruppindelning: Randomisering |
Gruppindelning: A) Confounders/Förväxlingsfaktorer B) Selektion/Gruppindelning C) Klassificering/ Avgränsning av deltagare och insatser |
2 | Avvikelser från planerade insatser | |
3 | Bortfall | |
4 | Mätning av utfallet | |
5 | Rapportering | |
6 | Jäv och intressekonflikter |
5.1.1 Delmoment 1: Bedöm risken för bias i olika domäner
Det första delmomentet i arbetet med risk för bias granskning är att göra en bedömning för var och en av de sex domänerna. I Avsnitt 5.1.1.1 beskrivs hur domän ett granskas i en RCT studie och i Avsnitt 5.1.1.2 till 5.1.1.5 beskrivs hur domän ett granskas i en NRSI-studie. Överväganden för domän två till fem sker på likartat sätt för båda studiedesignerna.
5.1.1.1 Domän 1: Bias som en följd av gruppindelning (RCT-studier)
I studier där forskarna jämför en eller flera insatsgrupper och jämförelsegrupper med varandra bör deltagaregenskaper som ålder, kön eller typ av funktionsnedsättning vara jämnt fördelade mellan grupperna för både insatsen och jämförelsen. Om de är ojämnt fördelade kan det avgöra vilket utfall insatsen visar.
Syftet med randomisering är att förebygga sådan bias som kan uppstå i samband med att deltagarna delas in i grupper. En välgjord randomisering gör att både kända och okända deltagaregenskaper fördelas slumpmässigt mellan grupperna. Om antalet deltagare är tillräckligt stort blir det oftast en jämn spridning av deltagaregenskaper i grupperna. På så sätt balanseras också okända faktorer som kan förutsäga utfallet, till exempel ålder, svårighetsgrad av sjukdom, socioekonomi, samsjuklighet eller flera olika samtidiga funktionstillstånd.
Bedömningen av risken för bias i en RCT-studie kopplat till gruppindelning utgår från hur de som utfört och rapporterat studien har genererat sekvensen för att slumpmässigt dela in deltagarna i grupper och om den sekvensen har kunnat påverkas. Det finns flera sätt att ta fram slumpmässiga sekvenser som styr hur gruppdeltagarna ska fördelas, alltifrån enkla manuella metoder som att singla slant till att använda en slumpgenerator eller webbaserade program för randomisering. Det är dock viktigt är att det inte går att påverka sekvensen eftersom fördelningen då inte blir slumpmässig. Med enkla manuella metoder ökar risken för att sekvensen kan ha påverkats. Ibland läggs dock begränsningar in i processen för att få jämna proportioner mellan grupperna, till exempel 1:1 där grupperna blir lika stora. Sådana begränsningar kan påverka randomiseringen, se Faktaruta 5.2.
Om principen för randomiseringen är känd kan det vara möjligt att påverka vilka individer som hamnar i vilka grupper, därför är det fördelaktigt om sekvensen är dold för de inblandade i studien tills insatsen ges till deltagarna Det kallas för dold allokering. Det effektivaste sättet att dölja gruppindelningen är att tilldelningen hanteras av en tredje part.
Ibland kallas metoder som randomiserar utifrån exempelvis födelsedatum, veckodatum, datum för besök hos läkare, olika skolor, sjukhus, regioner för kvasirandomiseringar. Dessa metoder är oftast minde lämpliga då de kan leda till en ojämn gruppindelning för insats- och jämförelsegruppen.
Den första mätningen av deltagarnas olika egenskaper, tillstånd eller behov kallas ofta baslinjemätning och resultaten från den bör finnas presenterade i en tabell. Mätningen bör vara gjord före randomiseringen om insatsen inte kan blindas. Se Faktaruta 5.3 för mer information om blinding.
Baslinjemätningen behövs när för att kunna granska hur väl randomiseringen har lyckats. Om det finns skillnader mellan grupperna kan randomiseringen ha misslyckats. Små skillnader kan bero på slumpen men det finns anledning att misstänka att randomiseringen inte har lyckats om det är ovanligt stora skillnader i gruppstorlek och deltagaregenskaper, en överdriven likhet mellan grupperna och om det helt saknas vissa egenskaper eller tillstånd i grupperna som borde finnas där.
5.1.1.2 Risk för bias i samband med gruppindelning (NRSI-studier) – Domän 1A, 1B, 1C
När det är praktiskt svårt eller till och med oetiskt att randomisera deltagarna kan studien genomföras utan randomisering. Det kallas för en NRSI-studie (eng. non-randomized study of interventions). Utan randomisering riskerar deltagaregenskaperna att bli ojämnt fördelade mellan grupperna, vilket kan leda till hög risk för bias, se Faktaruta 5.4. Resultaten från en NRSI-studie bör därför ställas i relation till vilka resultat som skulle kunna ha uppnåtts om studien hade varit randomiserad. Cochrane Collaboration rekommenderar att projektgruppen definierar en idealisk randomiserad studie, utan några praktiska, etiska eller ekonomiska hinder som kan finnas för en sådan, och fråga sig hur populationen då skulle väljas och insatsen ges? Hur och när ska utfall(en) mätas? Tanken är att den idealiska studien sedan fungerar som en jämförelse för de inkluderade studierna för att avgöra hur hög deras risk för bias är.
5.1.1.3 Domän 1A: Risk för bias från identifiering och kontroll av confounders (NRSI-studier)
Confounders, ibland kallade störfaktorer eller förväxlingsfaktorer, är faktorer som påverkar både det som ska studeras, till exempel vilken effekt en viss insats har eller konsekvenserna av en exponering, och utfallet. De kan bestå av egenskaper, tillstånd och karakteristika som kan bli ojämnt fördelade mellan de grupper som ska jämföras och därigenom påverka resultaten. Vanliga confounders är svårighetsgrad av sjukdom, omfattning av funktionstillstånd eller problematik, samsjuklighet eller flera samtidigt förekommande funktionstillstånd, ålder och socioekonomiska faktorer. Confounders som är betydelsefulla för forskningsfrågan bör identifieras av de som utför den systematiska översikten (projektgruppen eller författarna) innan bedömningen risk för bias inleds. Det är en styrka om valet av confounders baseras på tillförlitliga forskningsdata, så att det finns goda skäl att tro att de förväxlingsfaktorer som väljs verkligen påverkar utfallet.
Confounders som bedömts vara jämnt fördelade vid studiestarten och den första mätningen (baslinjemätningen) kan dessutom förändras över tid. Confounding som varierar över tid (eng. time-varying confounders) beror på faktorer som förändras efter det att insatserna har startat.
Det händer också att primärstudiernas författare lägger till faktorer i analysen när baslinjemätningen är avslutad och insatsen har startat (eng. post-intervention variables). I en prospektiv studie kan det bero på brister i planeringen eller att nya egenskaper, behov eller tillstånd hos deltagarna har noterats, exempelvis en reaktion på insatsen eller ett försämrat funktionstillstånd orsakat av skov. Författarna till studien ska ha beräknat effekten av insatsen på variabler som mätts upp vid baslinjen innan insatsen gavs. Om de tar in nya variabler efter att insatsen getts går det inte att bedöma om utfallet har påverkats av insatsen.
När confounders är kända går det att ta hänsyn till dem genom att justera för dem statistiskt om det finns tillgång till valida och reliabla data. Med en sådan analys får man en mer rättvisande skattning av orsakssambandet. När sådana data saknas kan de i vissa fall ersättas av data som motsvarar confoundern, exempelvis viktnedgång, för att kontrollera för allvarlighetsgrad av tillstånd, eller utbildningsnivå och inkomst för att kontrollera för socioekonomisk status.
Det är sällsynt att en NRSI-studie har en låg grad av confounding. Vid bedömning av risk för bias i studier där forskarna har kontrollerat för confounders är det därför viktigt att bedöma om analysen varit genomtänkt och om det finns risk för kvarvarande confounding (eng. residual confounding). Det kan dock vara svårt att upptäcka och det är rimligt att anta att det alltid finns en kvarvarande risk för confounding. Läs mera om hantering av confounders i Faktaruta 5.5.
5.1.1.4 Domän 1B: Risk för selektionsbias (NRSI-studier)
Selektionsbias, så som den definieras i Cochranes granskningsmall, inträffar när studiedeltagare eller utfall exkluderas på ett sätt som påverkar sambandet mellan insatsen och utfallet. Selektionsbias kan alltså kopplas till både insats och utfall. Till skillnad från confounders uppstår selektionsbias som en följd av brister i studieprocessen. Det finns flera typer av selektionsbias och de kan uppstå både vid baslinjen och efter att insatsen påbörjats, se Faktaruta 5.6. Selektionsbias ska inte blandas ihop med bortfall (Domän 3 Avsnitt 5.1.2.6).
Exempel på selektionsbias: Författarna till en studie vill studera om balansträning förebygger fallolyckor bland äldre. Om de väljer bort de äldsta deltagarna i insatsgruppen riskerar de att introducera selektionsbias. Det beror på att de förlorar data för de deltagare som både har den största risken att råka ut för en fallolycka och den minsta möjligheten att genomföra ett träningsprogram. Författarna kan till exempel välja bort de äldsta redan vid baslinjen för att de bedömde att det skulle bli alltför ansträngande för dem att delta, eller senare för att fler skador uppstod hos dem än hos övriga deltagare.
Det finns statistiska metoder, till exempel invers probabilitetsviktning (Faktaruta 5.7), som statistiskt kan justera för selektionsbias men ofta saknas data för att genomföra sådana.
5.1.1.5 Domän 1C: Risk för bias från klassificering av deltagaregenskaper och insatser (NRSI-studier)
Denna typ av bias uppstår främst i retrospektiva studier. I prospektiva studier finns ofta en ordningsföljd för arbetsprocessen som liknar den i randomiserade studier (Faktaruta 5.8).
Felklassificering behöver inte leda till bias. Bias uppstår endast om felklassificeringen påverkas av utfallet (eng. differential misclassification). Risken för bias minskar om data som används till klassificeringen samlas in innan resultatet är känt. Om det inte är möjligt kan data samlas in på ett sätt som förhindrar kännedom om insats och resultat före klassificering och gruppindelning, exempelvis genom att data om utfallet hålls dolt för de som klassificerar grupperna, se Faktaruta 5.9.
5.1.1.6 Domän 2: Risk för bias från avvikelser från planerade insatser (RCT- och NRSI-studier)
Om det uppstår avvikelser från de insatser som författarna hade planerat att undersöka behöver de beskriva orsaken till att avvikelserna uppstått, hur stora de är och om de skett i lika stor utsträckning i alla grupperna.
För information om val av mall ITT eller PP, se Faktaruta 5.10.
Risken för bias ökar om deltagarna i studien eller de forskare och personal som genomför, beslutar om eller utför insatsen känner till vilken grupp deltagarna tillhör, och självklart också om de båda känner till det. Det kan påverka en deltagares upplevelse både positivt och negativt om hen känner till vilken grupp hen tillhör. Till exempel kan en deltagare ändra sitt beteende eller uppleva ett större behov av en insats om man vet att man ingår i en jämförelsegrupp. Det kan leda till att resultaten i någon av grupperna blir felaktiga eller överdrivna. De som utför insatsen kan också börja behandla eller bemöta deltagare olika på grund av att de känner till vilken grupp de tillhör, exempelvis genom att ge extra uppmärksamhet, stöd eller omsorg till någon av grupperna.
Ytterligare exempel på avvikelser som kan uppstå är att deltagare byter, låter bli att använda eller inte längre beviljas en insats och deras grupptillhörighet därmed förändras. Förändrad grupptillhörighet kan vara frivillig eller ofrivillig. Ett exempel på det senare är att ansökan om assistansersättning eller ekonomiskt bistånd inte längre beviljas vid omprövning av beslut. Att avstå från att använda en beviljad hemtjänstinsats, som inte behöver innebära att behovet saknas utan istället bero på att den enskilda personen upplever hemtjänstinsatsens utformning negativ och att anhöriga istället tillgodoser behovet, är ett exempel på avvikelse av mer frivillig karaktär. Det kan också vara i linje med hur vård normalt brukar ges.
Deltagare kan också avvika från en planerad insats för att grupptillhörigheten inte är dold, vilket är vanligt inom svensk socialtjänst och funktionshinderrelaterade insatser. För att få erbjudande om en sådan insats måste den enskilde nämligen i de flesta fall själv ansöka om den. Om en stor andel av deltagarna förändrar sin grupptillhörighet kan det i randomiserade studier medföra att den slumpmässiga fördelningen går förlorad. Ett riktmärke ur en statistisk synvinkel är att 5 procent kan räknas som en stor andel.
Ytterligare avvikelser som kan uppstå är så kallad bristande metodtrohet, det vill säga avvikelser från instruktioner eller steg som ingår i en insats. Som exempel kan vi utgå från en utvärdering av insatsen individanpassat stöd till arbete (IPS) som är en arbetslivsinriktad insats för personer med funktionsnedsättning och baseras på ett antal grundprinciper. Om den som ger det individanpassade stödet inte följer grundprinciperna uppstår avvikelse i form av bristande metodtrohet.
Avvikelser kan också uppstå av exempelvis kliniska eller praktiska anledningar som skulle ha inträffat oavsett om det pågick en studie eller inte.
5.1.1.7 Domän 3: Risk för bias från bortfall (RCT- och NRSI-studier)
Med bortfall menas sådana datautfall som planerats att ingå i analysen men av olika orsaker inte finns tillgängliga. Bortfall kan kopplas till enskilda individer eller enstaka mätpunkter, som exempelvis saknas för att:
- deltagarna avbryter medverkan eller inte kan lokaliseras (eng. lost to follow-up)
- deltagarna inte deltar fullt ut eller inte kan delta i en uppföljningsmätning
- mätresultat förloras eller inte finns tillgängliga av andra anledningar (eng. missing data).
Bias kan exempelvis uppstå om bortfallet är obalanserat mellan grupperna, att orsakerna till bortfall är obalanserat eller om det finns skillnader i utfallen mellan de som föll bort och de som var kvar i studien.
Det finns inga tydliga regler för vad som kan anses vara ett högt bortfall. I manualen för ROB-2 står att för kontinuerliga utfallsmått är det osannolikt att resultatet snedvridits om bortfallet understiger 5 procent. För dikotoma utfallsmått är risken för bias förknippad med risken för utfallet, vilket betyder att ett lågt bortfall kan leda till bias om utfallet är sällsynt. Läs mer här.
Även om bortfallet är lika stort i grupperna kan orsakerna till det skilja sig åt mellan dem. Ett exempel är att deltagare kan vara mer benägna att avbryta sin medverkan i en studie om de till exempel drabbas av biverkningar eller oönskade händelser, och om det i högre grad inträffar i gruppen som får insatsen kan resultatet bli snedvridet. Biverkningar kan exempelvis vara viktförändringar vid behandling med SSRI-läkemedel som påverkar deltagarnas motivation att medverka i en sådan läkemedelsstudie. En oönskad händelse kan vara att deltagarna förblir arbetslösa för att de inte erbjuds en aktiv arbetsmarknadsinsats.
Trots bortfall kan resultatet av en studie vara robust om författarna hanterar bortfallet i analysen och gör sensitivitetsanalyser (känslighetsanalyser). Detta är en metod för att bedöma hur undersökningsresultat påverkas av olika förändringar.
Det finns sätt för studieförfattarna att hantera bortfallet statistiskt och alla har fördelar och nackdelar. Nedan finns tre exempel:
- ta bort ofullständiga observationer (eng. complete case analysis), men tänk på att detta riskerar att introducera bias och att den statistiska teststyrkan minskar
- imputera genom att lägga in saknade värden före analysen (Faktaruta 5.11).
- analysera ofullständiga data med en metod som inte kräver ett komplett dataset (Faktaruta 5.12).
5.1.1.8 Domän 4: Risk för bias från mätning av utfallet (RCT- och NRSI-studier)
Om de som mäter utfallet är medvetna om vilken grupp deltagarna tillhör finns det risk för bias för att de medvetet eller omedvetet kan bidra till att snedvrida resultatet. Därför är det viktigt att de som mäter utfallet är blindade. Om de känner till grupptillhörigheten kan det exempelvis leda till att effekterna av en insats överskattas. Överskattningen blir ofta större när utfallsmåtten grundas på en subjektiv bedömning.
När den som har mätt utfallet i en studie inte har blivit blindad och det kan ha påverkat utfallet finns det flera saker att ta hänsyn till vid bedömning av risk för bias. Exempel är att beakta vilka förväntningar och preferenser den som mäter utfallet kan ha haft, hur mycket denne har medverkat i deltagarens insatser och om andra parter i studien kan ha påverkat.
Den som mäter utfallet kan vara:
- deltagaren själv
- den som beslutar om eller utför insatsen
- en observatör.
När deltagaren själv mäter utfallet kallas det självrapporterat utfall, och kan till exempel vara livskvalitet och poäng på en skattningsskala. Data erhålls exempelvis genom intervjuer, frågeformulär eller dagböcker. Deltagaren betraktas som bedömare även om en blindad intervjuare ställer frågor och fyller i ett formulär. Bedömningen kan ha påverkats genom kännedom om insatsen.
Den som beslutar om eller utför insatsen kan också mäta utfallet genom att undersöka eller bedöma deltagarnas behov av stöd, eller fatta ett beslut grundat på den undersökningen eller behovsbedömningen. Utfallet blir då själva beslutet. Ett exempel på det är beslut om sjukhusinläggning eller ledsagarservice, beslut om att avsluta en insats, remittera vidare eller att avslå en ansökan. Om den som ska fatta beslutet vet vilken grupp en deltagare tillhör eller vilka förutsättningar hen har kan det påverka bedömningen och beslutet.
En observatör som inte är direkt inblandad i insatsen kan också mäta utfallet. Om utfallet inte påverkas är det inte ett problem att ha kännedom om insatsen. Exempel på detta är dödlighet oavsett orsak. Om utfallet däremot kräver en viss grad av bedömning, som att bedöma vem som har rätt till insatser enligt SoL eller LSS, granska röntgenbilder eller bedöma kliniska händelser, kan utfallet påverkas om observatören känner till vilken grupp deltagaren tillhör eller vilka förutsättningar denne har för insatsen.
5.1.1.9 Domän 5: Risk för bias från rapportering (RCT- och NRSI-studier)
Selektiv rapportering kan innebära att vissa utfallsmått inte rapporteras i en studie även om de har mätts. Selektiv rapportering kan också innebära att endast utvalda mätningar eller analyser av ett utfallsmått redovisas och ingår i bedömningen av risk för bias. Observera att denna domän inte omfattar bias som uppkommer på grund av att vissa primärstudier inte publiceras. Sådana avvikelser bör behandlas i samband med att man gör en bedömning av publikationsbias i GRADE (Avsnitt 8.1.5).
För att kunna bedöma om författarna medvetet valt ut vissa mätningar eller analyser behöver man gå igenom innehållet och tidpunkten för publicering av studiens protokoll eller statistiska analysplan, se Faktaruta 5.13 [30]. Det är viktigt att kontrollera att de publicerade analyserna verkligen var planerade före studien startades.
Vid risk för bias-bedömning ska såväl storlek som riktning och statistisk signifikans för estimaten tas i beaktande. Om det exempelvis finns bevis för att några mått eller analyser i en placebokontrollerad studie inte har rapporterats, men det redovisade resultatet är icke-signifikant, eller visar på nära ingen effekt, kan det antas att det är mindre sannolikt att studieförfattarna har valt det rapporterade estimatet baserat på dess resultat.
5.1.1.10 Domän 6: Intressekonflikter och jäv
Bedömningen av risken för att resultatet påverkats av intressekonflikter görs först i delmoment 3, som beskrivs nedan. Först sammanvägs risken för bias i enskilda utfall.
5.1.2 Delmoment 2: Sammanvägd risk för bias i ett enskilt utfall
Bedömningen avslutas med en sammanvägning av risken för bias för varje utfall per studie. Den grundar sig på överväganden om hur riskerna påverkar utfallet totalt sett. Som tumregel gäller följande för låg respektive hög risk för bias:
- för att utfallet ska bedömas ha låg risk för bias totalt sett ska risken ha bedömts som låg i samtliga domäner
- för att utfallet ska bedömas ha hög risk för bias totalt sett ska risken vara hög i minst en domän eller studien ha måttlig risk i flera domäner.
Det är värt att notera att detta endast är en tumregel och det viktigaste är att bedöma och redovisa hur risken för bias kan ha påverkat utfallet. Om projektgruppen har valt som princip för sitt arbete att ta med studier med hög risk för bias (Faktaruta 2.1) gäller att denna dels fullföljs, dels har beskrivits och motiverats.
NRSI-studier kan också ha en oacceptabelt hög risk, då minst en av domänerna bedöms ha oacceptabelt hög risk för bias. Utfallet från sådana primärstudier bör inte ingå i det fortsatta arbetet då det påtagligt kan snedvrida resultatet.
5.1.3 Delmoment 3: Sammanställning av total risk för bias per utfall för samtliga primärstudier
Det kan vara bra att sammanställa bedömningarna av risk för bias för samtliga inkluderade primärstudier. Exempelvis går det att göra en översiktlig tabell över risk för bias i Excel. Studiernas bedömda risk för bias visas lämpligen med färger och symboler för de olika domänerna. Ett grönt fält kan symbolisera att studien har låg risk för bias i den specifika domänen, en gul markering symboliserar måttlig risk för bias, medan ett rött fält symboliserar hög risk för bias. Med hjälp av exempelvis RevMan, ett verktygsprogram för systematiska översikter framtaget av Cochrane Collaboration, eller verktyget robvis, kan man också ta fram en sådan tabell.
5.2 Risk för bias i primärstudier om exponering
Primärstudier som utvärderar exponering undersöker om det finns ett samband mellan en exponeringsfaktor och ett utfall. Exponeringsfaktorer kan exempelvis vara en socialtjänstinsats som särskilt boende för äldre, buller på en arbetsplats eller substansmissbruk. Det är dock mycket svårt att dra slutsatser om orsakssambandet (det kausala sambandet) mellan exponeringsfaktor och utfallet i exponeringsstudier, eftersom confounding utgör ett hinder för detta. Det kan också vara praktiskt omöjligt eller oetiskt att tilldela deltagare vissa insatser för att sedan kunna mäta ett utfall. Den som vill studera effekter av tobaksbruk eller höga krav i arbetet kan inte vänta sig att finna studier där deltagarna blivit tilldelade en intervention. Detsamma gäller om en insats förutsätter att den enskilde personen själv ansöker om en sådan, såsom flertalet av socialtjänstens insatser. Det är inte aktuellt att ”tilldela” en insats i dessa sammanhang, utan insatsen kräver en enskild ansökan och därefter beslut om att bevilja insats. Då är observationsdata lämpliga för att undersöka sambandet mellan en exponeringsfaktor, självvald eller inte, och ett utfall.
SBU har tagit fram en granskningsmall för exponeringsstudier. Syftet med mallen är att vara ett stöd för de projekt som utvärderar olika typer av samband och bör justeras för att passa frågeställningarna i det aktuella projektet. Granskningsmallen kan användas för såväl prospektiva som retrospektiva studier, inklusive registerstudier.
5.2.1 Delmoment 1: Innan bedömning av enskilda domäner, selektionsbias som tillägg och om confounders
Risken för selektionsbias behöver övervägas innan bedömningen påbörjas. Om detta inte redan är gjort i relevansgranskingen så behöver detta läggas till som en domän i mallen.
Confounders är avgörande vid bedömning för risk för bias av exponeringsstudier. Om frågeställningen är om det finns ett orsakssamband mellan exponering och utfall kan dessa studier ofta inte medge sådan slutsats. Identifiering och hanteringen av confounders behöver diskuteras innan risk för bias-granskningen påbörjas. En rekommendation är om några confounders är betydande och en studie inte alls har beaktat dessa, bör den anses ha en oacceptabelt hög risk för bias.
SBU:s granskningsmall för exponeringsstudier omfattar 6 olika domäner.
5.2.1.1 Domän 1: Risk för bias från confounding
I exponeringsstudier finns det ofta flera confounders. Ibland har författarna till studien justerat för många confounders, och då kan det finnas en viss risk för överjustering. Ibland har de tvärtom justerat för få eller inga confounders. Olika studieförfattare justerar inte heller nödvändigtvis för samma confounders. Första steget är därför att bedöma om studien har tagit hänsyn till confounders som är viktiga, om de är mätta på valida och reliabla sätt och hanterade på ett rättvisande sätt.
Graden av exponering kan variera över tid och hänsyn behöver tas till om exponeringen är någorlunda stabil över tid. Om den inte är det ökar risken för bias. Saknas upprepade mätpunkter som visar på hur exponeringen varierar över tid är det dock mycket svårt att bedöma detta.
Det finns avancerade metoder för att ta ställning till vilka confounders som bör justeras för, till exempel kausal analys med hjälp av DAG (directed acyclic graphs), eller olika matchningsmetoder, som till exempel propensity scores. Om sådana metoder använts kan det visa att författarna väl har hanterat confounding-problematik.
5.2.1.2 Domän 2: Risk för bias från exponering
Exponeringen behöver vara väl definierad och beskriven i primärstudierna för att det ska vara möjligt att jämföra olika exponeringar eller studera hur olika exponeringsnivåer eller exponeringssätt påverkar olika utfall. Om det är otydligt hur deltagarna har klassificerats kan det leda till högre risk för bias. Vid bedömning av risk för bias från exponering kan det därför vara bra att fundera på hur studien har hanterat exponering och vilka mätmetoder författarna har använt. Är exponeringsdata till exempel insamlade med subjektiva eller objektiva metoder? Är exponeringen mätt på samma sätt för alla individer, grupper eller observationer? Många exponeringar är inte kategoriska utan har snarare gradskillnader. Då kan det vara bra att först bedöma om det finns en rimlig kontrast mellan att vara exponerad och icke-exponerad.
5.2.1.3 Domän 3: Risk för bias på grund av bortfall
Vad som räknas som ett stort bortfall är olika beroende på vad som studeras. Det är därför ofta svårt att bedöma den här domänen i exponeringsstudier. Ibland finns det ett högt bortfall på grund av att deltagare faller bort, till exempel i en kohortstudie där personer kan flytta eller hoppa av studien, eller på grund av många saknade data, exempelvis på grund av låg svarsfrekvens för enskilda frågor. En rekommendation kan därför vara att framför allt fokusera på om det finns selektivt bortfall, det vill säga där bortfallet skiljer sig mellan grupperna för insats och jämförelse. Ibland kan studiepopulationen vara definierad på ett sådant sätt att inget bortfall förekommer. Studiepopulationer och data som kommer från register är till exempel ofta definierade utifrån att det finns värden på exponering och utfall för alla individer men saknar de individer som inte hade alla värden. Resultaten kan då bli svåra att överföra till den aktuella frågeställningen. Om sådana problem finns kan avdrag göras i GRADE på grund av brister i överförbarhet.
5.2.1.4 Domän 4: Risk för bias från mätning av utfallet
Bedömning av denna domän baseras i möjligaste mån på samma överväganden som för randomiserade studier. Om det är subjektiva utfallsmått som ska utvärderas, där till exempel studiedeltagare själva gjort bedömningarna, är det viktigt att bedöma om deltagarna kan ha påverkats av vetskapen om sin exponering.
5.2.1.5 Domän 5: Risk för bias från selektiv rapportering
Selektiv rapportering kan innebära att studieförfattarna inte rapporterar vissa utfallsmått även om de har mätts. Exempel på detta kan vara att de bara rapporterar resultat från en mätning med en särskild metod trots att de har använt flera metoder eller att de bara redovisar en del av mätpunkterna. Studieförfattarna kan också ha valt att bara redovisa en specifik analys från flera analyser de har gjort eller resultatet för utvalda subgrupper och inte för hela kohorten. Denna domän är svår att bedöma för just exponeringsstudier eftersom det kan finnas många analysmöjligheter och kanske inget självklart svar på hur data bör analyseras. För att frågan ska kunna besvaras säkert behövs tillgång till studiens protokoll och analysplan för att kunna ta reda på vad som planerades från början av studien. Hur ett specifikt projekt ska hantera detta diskuteras lämpligen inom projektgruppen innan bedömningen risk för bias påbörjas.
Utfall som inte är tillräckligt redovisade betraktas som del av publikationsbias. Dessa hanteras i en eventuell GRADE-bedömning.
5.2.1.6 Domän 6. Intressekonflikter och jäv
För att bedöma om det förekommer någon jävs- eller intresseproblematik i studien kan man behöva ta hänsyn till olika personspecifika förhållanden. Här kan det vara bra att ta hjälp av någon som har kännedom om det aktuella forskningsområdet, förutom det författarna själva uppger.
5.2.2 Delmoment 2: Sammanvägd risk för bias i ett enskilt utfall
Nästa steg är att bedöma studiernas övergripande risk för bias totalt sett för varje utfall. I ROB-mallarna står det att om en domän bedöms ha hög risk för bias ska utfallet totalt sett bedömas ha hög risk för bias. Avsteg från denna princip kan bli aktuell vid bedömning av exponeringsstudier.
5.2.3 Delmoment 3: Sammanställning av total risk för bias per utfall för samtliga studier
Det kan vara bra att sammanställa bedömningarna av risk för bias för samtliga inkluderade primärstudier. Exempelvis går det att göra en översiktlig tabell över risk för bias i Excel. Studiernas bedömda risk för bias visas lämpligen med färger och symboler för de olika domänerna. Ett grönt fält kan symbolisera att studien har låg risk för bias i den specifika domänen, en gul markering symboliserar måttlig risk för bias, medan ett rött fält symboliserar hög risk för bias. Med hjälp av exempelvis RevMan, ett verktygsprogram för systematiska översikter framtaget av Cochrane Collaboration, eller verktyget robvis, kan man också ta fram en sådan tabell.
5.3 Risk för bias i studier om diagnostisk tillförlitlighet
Sensitivitet och specificitet påverkas av olika typer av bias. Några av dem överensstämmer med de som finns för andra studietyper, till exempel bias som uppstår när den som tolkar resultaten inte är blindad (Faktaruta 5.3). Andra är specifika för diagnostisk tillförlitlighet. Det finns en systematisk översikt som undersökt hur sensitivitet och specificitet påverkas av olika typer av bias [90]. Resultatet har sammanfattats i en tabell som finns här.
Studier om diagnostisk tillförlitlighet bedöms med stöd av granskningsmallen QUADAS-2 (quality assessment of diagnostic accuracy studies version 2) [91]. QUADAS-2 är i första hand utvecklad för att bedöma tvärsnittsstudier. Den är inte avsedd för att bedöma studier om prediktion. SBU har översatt mallen till svenska, som nås här. Den engelskspråkiga versionen med sina detaljerade instruktioner finns på webbplatsen för Bristol University.
Om frågeställningen gäller en jämförelse mellan flera olika tester eller bedömningsmetoder och referenstest finns en granskningsmall med anpassade frågor som heter QUADAS-C. Denna återfinns i sin helhet här.
Om frågeställningen gäller psykometriska egenskaper har COSMIN olika typer av granskningsmallar tillgängliga.
QUADAS-2 består av fyra domäner med tillhörande stödfrågor (eng. signalling questions) om:
- population
- indextest
- referenstest
- tid och flöde.
Precis som i övriga granskningsmallar bedöms först risken för varje enskild domän och sedan görs en sammanvägd bedömning av den totala risken. Till skillnad från övriga granskningsmallar tar QUADAS-2 upp såväl risk för bias som aspekter på tillämpbarhet, det vill säga hur väl studierna svarar på översiktens frågeställning, under varje domän (Figur 5.1).
Översiktsförfattare kan behöva anpassa QUADAS-2-mallen innan granskning. Några signalfrågor kan vara överflödiga och andra kan behöva läggas till. Ett tips är att försöka undvika att lägga till för många signalfrågor. Det kan även vara bra att besluta om en acceptabel tid mellan indextestet och referenstestet. Ett tips är att testa signalfrågorna på ett mindre antal studier innan huvudbedömning.
QUADAS-2 rekommenderar att den som granskar en studie först ritar upp ett flödesschema för hur studien har genomförts. Det underlättar den fortsatta granskningen.
5.3.1 Domäner i QUADAS-2
5.3.1.1 Domän 1: Population (urval av deltagare)
1 a) Risk för bias: I idealfallet ska en studie rekrytera ett brett spektrum av deltagare genom antingen ett konsekutivt urval, det vill säga ett urval där alla deltagare uppfyller ett antal specificerade kriterier, eller ett randomiserat urval med olika risk för att deltagarna har tillståndet, behovet eller problemet i fråga. Om spektrumet är smalt finns det risk för att sensitiviteten överskattas, så kallad spektrumbias [90]. Undvik fall–kontrollstudier eftersom de endast inkluderar deltagare som antingen har eller inte har det aktuella tillståndet eller behovet. Spektrumbias uppstår även i studier med randomiserat eller konsekutivt urval om vissa deltagare systematiskt utesluts, vilket kan leda till att resultaten överskattas såväl som att de underskattas.
1 b) Tillämpbarhet: Det kan finnas flera orsaker till att en studie brister i tillämpbarhet. För att identifiera bristerna undersöks i vilket skede av den diagnostiska processen som testet eller bedömningsmetoden är tänkt att användas och om deltagarna är mer eller mindre selekterade. Demografiska skillnader kan också påverka hur tillämpbara resultatet från en studie är, liksom hur svårt eller vanligt det undersökta tillståndet, behovet eller problemet är i olika populationer. En högre prevalens ökar sensitiviteten och minskar specificiteten [90].
5.3.1.2 Domän 2: Indextest och bedömningsmetod
2 a) Risk för bias: Denna domän avser två aspekter, blindning och val av tröskelvärde. Om testet eller bedömningsmetoden genomförs efter referenstestet och författarna känner till resultatet från referenstestet kan det påverka deras tolkning.
Många tester eller bedömningsmetoder har tröskelvärden, som kan vara mer eller mindre etablerade. I en del studier kan författarna ha valt att inte definiera tröskelvärdet i förväg utan välja det efteråt för att optimera testets eller metodens prestanda, ett så kallat datadrivet tröskelvärde. Det kan höja risken för bias.
2 b) Tillämpbarhet: Om testet eller bedömningsmetoden genomförs eller tolkas på ett annorlunda sätt än författarna angav i forskningsfrågan kan tillämpbarheten minska. Resultaten från testet kan till exempel tolkas av specialister i studien, medan det i praktiken är tänkt att användas av personer med mindre kunskap och erfarenhet. Specialistens kunskap om testet kan vara avgörande och testet fungerar då inte på samma sätt för de med mindre kunskap. Olika versioner av test och bedömningsmetoder kan också utgöra ett problem eftersom de kan skilja sig åt.
5.3.1.3 Domän 3. Referenstest eller jämförande bedömningsmetod
3 a) Risk för bias: Referenstestet kan ge upphov till risk för bias. Ett referenstest är till för att klassificera tillståndet eller problemet med hundraprocentig korrekthet. Resultatet kan dock påverkas om referenstestet har genomförts eller tolkats på ett bristfälligt sätt. Det kallas felklassifikationsbias och leder vanligen till att sensitiviteten överskattas [88].
Om studieförfattarna har gjort indextestet eller den bedömningsmetod som utvärderas före referenstestet kan det också öka risken för att de blir påverkade av vad indextestet visade.
3 b) Tillämpbarhet: Frågan om tillämpbarhet gäller främst om tillståndet, behovet eller problemet är definierat på samma sätt i studien som i projektets frågeställning, det vill säga PIRO.
5.3.1.4 Domän 4: Tid och flöde
Om det går tid mellan testerna och bedömningarna kan det finnas risk för att tillståndet, behovet eller problemet hunnit förändras (till det bättre eller sämre), det vill säga att det finns risk för felklassificering eller felbedömning. Risken för att en fördröjning mellan tester eller bedömningar påverkar tillförlitligheten varierar mellan olika tillstånd, behov och problem. Några dagars fördröjning spelar till exempel mindre roll vid en kronisk sjukdom, bestående funktionstillstånd eller behov av hjälp i hemmet, men kan spela stor roll vid exempelvis akuta infektioner eller akut behov av skyddat boende vid våld i nära relation. Ett problem i sammanhanget är att vissa referenstester kan göras först efter en längre tid, till exempel referenstest vid en sjukdom där samtliga diagnostiska kriterier måste vara uppfyllda.
Flödet kan här syfta på tid men också till exempel patientflödet. Här kan verifikationsbias uppstå. Det innebär att studieförfattarna endast undersöker eller bedömer en del av deltagarna med det optimala referenstestet. Övriga deltagare undersöker eller bedömer de inte med något referenstest alls. Då rör det sig om partiell verifikationsbias. Men de kan också byta till en annan, enklare metod. Orsaker till ett sådant beslut kan vara att referenstestet är dyrt, integritetskränkande eller medför risker för deltagaren. Då rör det sig om differentiell verifikationsbias. Om resultatet av testet eller den bedömningsmetod som utvärderas påverkar valet av referenstest uppstår systematisk bias.
En andra aspekt av flöde rör bortfallet. Om inte alla deltagare som rekryterats finns med i analysen uppstår bias eftersom sådana som fallit bort tenderar att skilja sig systematiskt från dem som är kvar.
5.4 Risk för bias i studier om prediktionsfaktorer och prediktionsmodeller
Liksom för övriga granskningsmallar bedöms först risken för varje enskild domän och sedan görs en sammanvägd bedömning av den totala risken. Innan granskningen påbörjas kan mallarna behöva anpassas. Några signalfrågor kan vara överflödiga beroende på förutsättningarna för översikten och andra kan behöva läggas till. När projektgruppen kommit överens om vilka signalfrågor som ska ingå bör granskningsmallen testas på ett mindre antal studier.
5.4.1 Prediktionsfaktorer – QUIPS och QUAPAS
Studier om prediktionsfaktorer bedöms med stöd av granskningsmallarna QUIPS eller QUAPAS. QUIPS är i första hand utvecklad för att bedöma tvärsnittsstudier. Mallen är framtagen av Hayden och medförfattare [92], och en uppdatering av den pågår. QUAPAS är en mall som bygger på såväl QUADAS 2 som QUIPS och riktar sig mot studier som undersöker den prognostiska träffsäkerheten hos bedömningsinstrument eller tester. QUAPAS är framtagen av Lee och medförfattare [93]. SBU har inte översatt dessa mallar till svenska utan hänvisar till originalmallarna på engelska.
QUIPS-mallen består av sex domäner med tillhörande stödfrågor (eng. signalling questions):
- study participation
- study attrition
- prognostic factor measurement
- outcome measurement
- covariate adjustment
- statistical analysis and reporting.
QUIPS har i stödfrågorna ofta mer fokus på rapportering än risk för bias. Till dess att den uppdaterade varianten har publicerats kan mallen behöva ses över och eventuellt anpassas utifrån projekts frågeställning.
QUAPAS består av fem domäner med tillhörande stödfrågor (eng. signalling questions):
- participants
- index test/bedömningsmetod
- outcome
- flow and timing
- analysis.
Likt QUADAS-2 så tar QUAPAS upp såväl risk för bias som aspekter på tillämpbarhet, det vill säga hur väl studierna svarar på översiktens frågeställning, under relevanta domäner.
5.5 Metodbrister i studier med kvalitativ metodik
Det finns flera sätt att beskriva tillförlitligheten hos resultat som baseras på kvalitativa studier [27]. Ett av dem bygger på den kvantitativa traditionen och bedömer validitet, reliabilitet och generaliserbarhet. Ett annat är att utgå från begrepp inom kvalitativ forskningstradition är trovärdighet (eng. trustworthiness) [94], som består av fyra komponenter (Faktaruta 5.14). Ett tredje sätt är att utgå från vetenskaplig stringens (eng. scientific rigour), ett begrepp som används bland annat i Cochrane Handbook.
Det är viktigt att kvalitativ syntes av forskning bygger på tillförlitliga studier. Det är också betydelsefullt att de kriterier som används för att bedöma trovärdigheten i kvalitativa studier i huvudsak bör överensstämma med de som används för att bedöma trovärdighet i studier med kvantitativ metodik.
För att en studie med kvalitativ metodik ska bedömas som trovärdig ska studiens frågeställning bäst besvaras med en kvalitativ metod, och valet av kvalitativ ansats ska motiveras. Forskaren bör även redovisa hur data och resultat relaterar till varandra, hur analysprocessen gått till och om det finns någon teorianknytning. Resultat och tolkningar ska beskrivas logiskt och begripligt.
Trovärdigheten ökar om tolkningen har verifierats, exempelvis genom att flera forskare analyserar materialet oberoende av varandra eller genom att preliminära tolkningar diskuteras med utomstående [27].
Det finns drygt 100 publicerade checklistor som stöd för att identifiera brister i genomförande och rapportering av kvalitativa studier [96] där Critical Appraisal Skills Programme (CASP) är ett av de mer etablerade. Ingen av checklistorna stödjer en bedömning av risken för att identifierade brister påverkar fyndens trovärdighet, något som även noterats av Cochrane Collaboration [97].
SBU har utvecklat en granskningsmall som ger stöd för en bedömning av risken för att identifierade brister påverkar fyndens trovärdighet. Den är uppbyggd av olika domäner med tillhörande stödfrågor. Fokus ligger på att bedöma risk för att metodbrister påverkar resultaten. Detaljerad beskrivning av hur mallen används finns i dess vägledning.
5.5.1 Aspekter av metodbrister
Metodbrister granskas utifrån fem aspekter:
- överensstämmelse mellan vetenskapsteoretisk underbyggnad av studien och dess syfte
- urvalet av deltagare
- datainsamling
- analys av data
- forskarens roll.
Varje aspekt ovan består i sin tur av tre moment:
- För att underlätta rapportskrivningen görs innan bedömningen först en kort beskrivning av till exempel urvalsprinciper eller vilka metoder som användes för att samla in data.
- Besvara frågorna som ska stödja bedömningen.
- Överväg de identifierade bristerna och i vilken utsträckning det finns risk för att de påverkar fynden. Det finns tre fasta bedömningsalternativ:
1) Ja det finns en allvarlig risk; 2) Nej, risken bedöms inte vara allvarlig och 3) Oklart, det finns inte tillräcklig information för att bedöma risken.
Den sista delen av granskningen är att bedöma om studien sammanlagt har så allvarliga brister att den inte bör ingå i syntesen. Observera att en studie kan vara så klent beskriven att det inte finns underlag att bedöma de metodologiska riskerna och bör då inte ingå i syntesen.
6. Extraktion av data
Detta kapitel handlar om att extrahera data, det vill säga information från de inkluderade studierna och lägga in den i tabeller. Syftet är att de som läser översikten ska få en uppfattning om studiernas karakteristika utan att själva behöva läsa dem, samt att presentera resultaten från studierna överskådligt. Även detta steg bör göras av minst två personer för att minska risken för misstag. Antingen extraherar personerna information oberoende av varandra från samma studier och jämför sedan resultatet, eller så extraherar en person information och den andra kontrollerar.
Typiska uppgifter som bör finnas i tabellerna är
- författare
- beskrivning av populationen
- beskrivning av den miljö som studien genomförts i
- beskrivning av deltagarna i studien utifrån till exempel ålder och kön
- beskrivning av insats och jämförelseinsats, alternativt indextest och referenstest
- studiedesign
- de utfallsmått som använts i studien.
Utöver detta så behöver även resultaten från studierna extraheras. Det händer att dessa behöver bearbetas så att de blir användbara i kommande metaanalyser och jämförbara mellan de inkluderade studierna.
När det gäller studier med kvalitativ metodik gäller att extrahera de meningsbärande enheterna från de inkluderade studierna. De aspekter av studien som är viktiga för förståelsen av studierna, såsom forskarens position, vetenskapsteoretisk ansats, sammanhang, datainsamlingssätt, analysmetod och resultat, ska också tabelleras.
7. Sammanvägning av resultat
Detta kapitel handlar om att undersöka och väga samman resultaten från de studier som har inkluderats i den systematiska översikten och som utgör det vetenskapliga underlaget, och att bedöma om det går att dra några slutsatser utifrån dem. Detta kapitel tar upp några vanliga metoder för att väga samman empiriska resultat. För studier som bygger på kvantitativ metodik, till exempel effekter av insatser eller diagnostisk tillförlitlighet, kan det vara lämpligt att använda metaanalys. Beroende på analysmodell ger metaanalysen antingen en uppskattning av en antagen gemensam underliggande effekt (eller sensitivitet och specificitet) eller ett medelvärde av effekterna (eller sensitiviteten och specificiteten).
I kapitlet beskriver vi också principerna för nätverksmetaanalys och syntes utan metaanalys (eng. synthesis without meta-analysis, SWiM). För studier som har använt kvalitativ metodik finns flera metoder för att göra syntes av kvalitativ evidens. Några av dem beskrivs med exempel i Avsnitt 7.7.
7.1 Metaanalys för studier om effekter av insatser
Här nedan beskrivs översiktligt metoden för metaanalys. Mer detaljerad information finns till exempel i Introduction to Meta-analysis av Borenstein och medarbetare år 2009 [98], i Cochranes handbok för systematiska översikter från år 2023 [31] eller i litteratur som Handbook of Meta-analysis från år 2020 [99].
Metaanalysen utvecklades för att få fram mera pålitliga resultat genom att lägga samman data från flera enskilda studier med hjälp av statistiska metoder. Det gemensamma, sammanvägda resultatet uttrycks sedan vanligen som ett punktestimat med ett tillhörande osäkerhetsintervall, även kallat konfidensintervallet.
Eftersom en metaanalys består av flera studier och innehåller mer data än en enskild studie, leder det till att den så kallade teststyrkan (eng. power) ökar. En ökad teststyrka ger bättre möjligheter att upptäcka effekter som faktiskt finns, som skillnader mellan en insats- och en jämförelsegrupp. Eftersom både teststyrkan och antalet individer och händelser som ingår i metaanalysen är större än i enskilda studier kan man skatta ett effektmått som troligen ligger närmare det sanna värdet för den bakomliggande populationen, och inte bara för de individer som ingår i en viss studie (Faktaruta 7.1).
Ibland kan de studier som finns att tillgå vara alltför olika varandra för att det ska vara meningsfullt att beräkna ett sammantaget estimat. Det kan också vara så att resultaten i primärstudierna är rapporterade på sätt som inte alltid kan konverteras till en gemensam skala. Men även när en metaanalys inte kan användas för att beräkna punktestimatet kan tekniken ge värdefull information. Metaanalysen kan till exempel användas för att analysera olika källor till variation i materialet (till exempel urvalsfel och heterogenitet), och för att undersöka risken för publikationsbias i det vetenskapliga underlaget.
7.1.1 Utfallsmått i en metaanalys
En metaanalys gäller ett specifikt utfall som mätts på ett specifikt sätt. Ofta har dock studierna mätt utfallet på olika sätt, det vill säga informationen finns i fel format. Projektgruppen behöver då räkna om resultaten för att det ska gå att använda dem i analysen. Se Faktaruta 7.2 för en kortfattad genomgång av olika effektstorlekar som rapporteras i primärstudier.
Utfallsmått kan klassificeras som kategoriska eller kontinuerliga. Kategoriska mått hanterar ett begränsat antal nivåer, till exempel kan hjärtsvikt klassificeras som nedsatt, lätt, måttlig eller svår. Ett specialfall bland kategoriska mått är dikotoma, eller binära, mått som hanterar händelser som kan översättas till ettor och nollor. Det betyder att en händelse antingen har inträffat eller inte, till exempel om en individ har dött eller blivit dömd för ett brott. Kontinuerliga variabler hanterar mått som inte har några fasta nivåer, till exempel blodtryck, och uttrycks ofta som medelvärden eller medelvärdesskillnader.
För resultat som uttrycks med dikotoma eller kategoriska mått kan det sammanvägda resultatet, estimatet, uttryckas på flera sätt (Faktaruta 7.3).
Kontinuerliga mått mäts på en oavbruten skala och kommer i en jämförande analys att ge ett estimat uttryckt som medelvärdesskillnad, MD, eller standardiserad medelvärdesskillnad, SMD. Om alla inkluderade studier redovisar resultat från samma mätskala bör MD användas. I vissa fall går det också att konvertera resultat från olika mätskalor till en och sedan uttrycka resultatet som MD. Om studierna har använt samma skala kan det sammanslagna effektmåttet presenteras som medelvärdesskillnaden i originalskalans skalsteg. Fördelen med det är att inga konverteringar behöver göras. Läsaren måste dock ges tillräckligt med information för att kunna bedöma storleken på effekten. Det är därför en fördel om skalan är väletablerad och används ofta inom forskningsområdet, eller om den är intuitiv för läsaren att förstå. Skalan bör samtidigt förklaras på så sätt att både dess minimum och maximum samt betydelsen av negativa och positiva värden är begripligt. Om det finns tillgång till pålitliga skattningar av dess minsta kliniskt betydelsefulla skillnad (eng. minimal important difference, MID, eller minimal clinically important difference, MCID) kan det vara värdefull information (Faktaruta 2.6).
Använd SMD när resultaten kommer från mätningar med olika skalor. En förutsättning för att kunna göra det är dock att skalorna mäter likartade egenskaper. Det är därför viktigt att en bedömning görs av vilka mätskalor som kan ingå i metaanalysen. Flera metaanalyser kan behöva göras där endast resultat läggs ihop från de studier som använt samma skala eller mätt utfallet på samma sätt.
Om utfallen mätts på alltför olika sätt, och det inte är möjligt att konvertera de olika måtten, bör man inte göra en metaanalys. Då kan en syntes utan metaanalys vara lämplig istället (Avsnitt 7.6).
7.1.2 Heterogenitet
Olika studier skiljer sig oftast från varandra sett till upplägg, stickprovets eller studiepopulationens sammansättning, sammanhang, insatsernas exakta innehåll, jämförelseinsatserna, sättet att mäta utfallen, studiedesign och annat. Om olikheterna mellan studierna är stora riskerar det att leda till stora olikheter även i hur de skattar effekten. Denna så kallade heterogenitet innebär att de olika studierna kan såväl över- som underskatta effekten av en insats i den bakomliggande populationen.
Studier som är alltför heterogena bör inte slås ihop i en metaanalys. Orsaken är dels att det uppstår en variation som beror på annat än det som undersöks vilket kan dölja verkliga effekter, dels riskerar man att dra felaktiga slutsatser från data.
Heterogenitet innebär att det finns en variation i effektstorleken mellan studier, utöver den slumpvariation som alltid kan förväntas (variation inom studier). Metaanalysen ger tre mått för att undersöka heterogeniteten i ett material: I2, τ2 och Q. Måttet I2 ger en uppfattning om hur stor andel av den totala variationen som kommer från skillnader mellan studierna i metaanalysen, där den totala variationen innehåller både variation mellan studier och slumpvariationer inom respektive studie. Det är det mått som oftast förekommer i litteraturen (Figur 7.1). Enligt en omtvistad tumregel sägs heterogeniteten vara låg om I2 ligger runt 0,25, måttlig om I2 ligger runt 0,50 och hög om I2 ligger runt 0,75. Men att endast använda I2 som ett direkt mått på heterogenitet rekommenderas inte. Måttet τ2 (Tau2) ger en uppfattning om hur stor skillnaden är i genomsnitt mellan punktestimaten för de olika studierna som ingår i analysen, medan måttet Q istället visar den genomsnittliga skillnaden mellan punktestimaten för studierna och metaanalysens gemensamma, sammanvägda estimat.
Ofta är det omöjligt att få korrekta skattningar av heterogenitet. Om metaanalysen bygger på få studier finns det en risk att uppskattningen felaktigt visar att det inte finns någon mellanstudievarians, det vill säga att den ger ett falskt intryck av homogenitet. Rent generellt har heterogenitetstest en låg statistisk teststyrka och heterogeniteten underskattas ofta i metaanalyser. τ2, I2 och Q kan dock vara användbara för att få en uppfattning om heterogeniteten i en metaanalys. De kan därför vara en grund till diskussion. Ett kompletterande sätt är att visuellt inspektera forest-diagrammet (skogsdiagrammet), för att få en uppfattning om heterogeniteten i de inkluderade studiernas effekter.
Det finns olika sätt att hantera att studier som ska väga samman inte är helt lika, till exempel olika statistiska modeller eller subgruppsanalyser. Mer information om det finns i avsnitten nedan. Ett annat sätt är att utföra en metaregression, vilket är möjligt när en kontinuerligt mätt variabel kan användas som en prediktor eller kovariat och där det är variationer i effektstorlekar hos de inkluderade studierna som ska förklaras.
7.1.3 Subgrupper i en metaanalys
Ett sätt att hantera heterogenitet mellan studier är att göra subgruppsanalyser. Sådana analyser ska vara planerade i förväg i protokollet, och det ska finnas en tydlig orsak till att de är valda, till exempel att det finns en anledning att misstänka att kvinnor och män reagerar olika på en viss insats. Att skapa subgrupper i efterhand, på basis av hur redan analyserade data ser ut, är inte att rekommendera. Det är också viktigt att överväga teststyrkan i de olika subgrupperna. Eftersom varje subgruppsanalys utgör ett mindre stickprov än vad som skulle ha varit fallet utan subgrupperingar så kommer teststyrkan att minska, och därmed minskar också möjligheten att upptäcka eventuella skillnader som kan finnas i materialet.
Några exempel på när det kan vara en bra idé att göra subgruppsanalyser är när studierna rapporterar olika varianter av insatsen, kommer från olika länder med olika välfärdssystem eller olika organisation för social omsorg, har olika uppföljningstider eller när äldre studier använder en annan teknik än nyare studier. Subgruppsanalyser genererar ett nytt punktestimat med vidhängande konfidensintervall för varje subgrupp. Dessa kan sedan jämföras för att se om effekten av insatsen är statistiskt skild för de olika subgrupperna.
7.1.4 Känslighetsanalyser i en metaanalys
För att undersöka hur stabilt resultatet av en metaanalys är kan olika varianter av känslighetsanalyser göras. Det innebär att samma analys görs om med en eller flera studier exkluderade, och sedan undersöks hur stor påverkan det får på det sammanvägda resultatet. Denna information är värdefull bland annat när tillförlitligheten ska bedömas med GRADE. Exempel på känslighetsanalyser kan vara att göra analys med eller utan studier som publicerats innan ett visst årtal, studier som kommer från låg och medelinkomstländer eller studier med få deltagare. En variant av känslighetsanalys är att analysen upprepas flera gånger och varje gång tas en enskild studie bort för att undersöka om resultaten drivs av en enskild studie (eng. one study removed).
7.1.5 Val av modell för metaanalys
Det finns två huvudtyper av metaanalyser, fixed effect model (FEM) och random effects model (REM). Vilken av modellerna som ska användas bestäms redan i protokollet utifrån vilket syfte översikten har. Observera att FEM i modern statistisk litteratur ofta benämns som common-effect model (till exempel av Schmid och medarbetare från år 2021 [99]).
FEM utgår från antagandet att alla studier som ingår i metaanalysen är stickprov som har dragits från en och samma population. Det finns en gemensam effekt som gäller för den bakomliggande population som alla studierna har dragits ifrån, och det är denna gemensamma effekt som metaanalysen estimerar.
För REM antas att de inkluderade studierna har dragits från olika bakomliggande populationer. Det går då inte längre att anta att det finns en gemensam effekt, eftersom effekten kan förväntas vara olika i de olika studiepopulationerna. REM ger i stället en skattning av medelvärdet över alla olika populationer i studierna. Metaanalysen ger därmed inte ett direkt mått på hur effekten ser ut i en enskild population. Å andra sidan kan skattningen ge en uppfattning om var effekten ligger mer generellt, i genomsnitt.
Eftersom varje studie i REM blir den enda representanten för just sin population så får små avvikande studier större vikt än vid FEM, och konfidensintervallet blir bredare. En annan konsekvens är att den statistiska teststyrkan blir lägre för REM jämfört med FEM, och möjligheten att upptäcka faktiska skillnader mellan grupperna minskar något. Ju mindre heterogenitet som finns i en analys, desto mer lika blir dock de två modellerna. Formeln för att räkna ut den viktade effektstorleken är densamma med den viktiga skillnaden att REM-modellen innehåller en term τ2. Det innebär att om detta mått på heterogenitet är mycket lågt kommer FEM- och REM-skattningarna att bli mycket lika. De båda modellerna är dock skilda åt konceptuellt, och författare av översikter bör alltid specificera vilken modell de ska använda före analysen – inte köra båda och välja den som verkar bäst i efterhand. REM är i de allra flesta fall utgångspunkten. Endast när de inkluderade studierna är väldigt lika varandra sett till studiedesign, utfallsmått och andra viktiga karakteristika, är det godtagbart att använda en FEM.
7.1.6 Forest plot
En metaanalys brukar presenteras som en så kallad forest plot (skogsdiagram). Det visar skattningar av effekt från de enskilda studierna, en sammanvägd effekt, konfidensintervall för såväl de enskilda effektskattningarna som för den sammanvägda effektskattningen samt mått på heterogenitet. Figur 7.2 visar ett exempel på en forest plot som har tagits fram med REM, där sju studier har jämfört effekten av två insatser (A och B). Effektmåttet är i det här exemplet SMD. Studiernas resultat redovisas som punktestimat i kvadraterna med tillhörande konfidensintervall i de horisontella linjerna. Storleken på kvadraten beror på hur stor vikt studien får i sammanvägningen, vilket visas i kolumnen med rubriken Weight. Generellt får en studie större tyngd ju snävare konfidensintervall den har, eftersom det brukar innebära att studien är större och har data som ligger väl samlade. Skillnaden i vikt mellan de olika studierna blir större vid FEM än vid REM. Det sammanvägda resultatet av metaanalysen, 1,13 i exemplet i Figur 7.2, visas med en romb. De horisontella ändarna på romben utgör konfidensintervallets gränser, som i exemplet är 0,22 till 2,04. Resultatet visar alltså sammantaget på en fördel för insats A.
I Figur 7.3 har studierna och resultaten delats upp i två subgrupper. Resultatet för respektive subgrupp visas som två unika romber. I det här exemplet finns det inte någon skillnad mellan interventionerna för Subgrupp 1 (SMD= –0,02, p=0,97), medan interventionerna skilde sig signifikant för Subgrupp 2 (SMD=1,94, p <0,00001). Det gemensamma resultatet för hela metaanalysen syns i romben längst ner och är samma som i Figur 7.3, utan subgrupper. Om skillnaden mellan subgrupperna är stor är kanske den gemensamma sammanvägningen inte så intressant och behöver då inte redovisas.
7.1.7 Tolkning av resultat
Metaanalys kan användas på flera olika sätt och den är ett bra analysverktyg för att få en bättre förståelse för data. Vilka tolkningar och slutsatser som kan dras från resultatet av en metaanalys beror på hur lika studierna som ingår i analysen är. Översiktligt kan detta beskrivas i tre nivåer:
- de studier som ingår är i allt väsentligt lika
- de studier som ingår skiljer sig åt, men på slumpartade vis
- de studier som ingår skiljer sig åt vad gäller viktiga aspekter.
I den första nivån bedöms effekten som robust för de studerade populationerna. I den andra nivån rapporteras medeleffekten. Vad kan spridningen av data bero på och vad detta har för betydelse? I den tredje nivån är medeleffekten däremot inte relevant. Här är det spridningen av data och vad denna kan bero på som är av intresse. Fundera även på möjligheten att göra subgruppsanalyser eller att sammanställa resultaten på annat sätt, till exempel genom att göra en syntes utan metaanalys.
7.1.8 Tolkning av utfallet uttryckt som SMD
Alla mätbara dimensioner kan inte omvandlas till dikotoma mått utan visst mått av förenkling. Det gäller exempelvis många psykologiska mått. Människor är inte antingen eller vad gäller exempelvis emotioner eller psykisk hälsa utan befinner sig någonstans på en kontinuerlig skala. Att använda SMD som effektmått är en vanlig metod som gör det möjligt att väga samman sådana skalor och göra en metaanalys trots det.
Att använda SMD gör det dock något svårare att kvalitativt uppskatta effektens storlek eftersom SMD anger effektstorleken i antal standardavvikelser. Faktorer som påverkar standardavvikelsen, till exempel urvalet och antalet personer i varje grupp, påverkar därmed även effektensstorleken uttryckt i SMD. SMD är därmed mer påverkat av stickprovsstorleken än till exempel OR. Ett resultat som uttrycks i SMD-termer är inte heller lika tolkningsbart för den som arbetar inom till exempel hälso- och sjukvården eller socialtjänsten. För att öka tolkningsbarheten är det därför en bra idé att komplettera resultat uttryckt i SMD med ett eller flera alternativa effektmått som inte är beroende av standardavvikelsen, som exempelvis NNT (eng. number needed to treat). Att uttrycka resultatet av en utvärderad insats på olika sätt är generellt sett önskvärt. Se Faktaruta 7.4 för råd kring metaanalyser av kontinuerliga mått.
7.1.9 Publikationsbias påverkan på metaanalysen
Publikationsbias innebär att studier av olika skäl inte publiceras alls eller med tidsfördröjning [100]. Den vanligaste orsaken till det är att studien inte kunnat finna tillförlitliga eller trovärdiga resultat som ger svar på eller stöd för frågeställningen, vilket kan göra såväl forskaren som eventuella finansiärer men också tidskrifter mindre benägna att publicera den.
Det finns följaktligen en risk att resultaten i en metaanalys eller fynden i en syntes av kvalitativ evidens har snedvridits på grund av att opublicerade studier inte finns med. Störst är risken att de har överskattats. Översiktens författare bör försöka bedöma risken för publikationsbias och redovisa resultatet av den bedömningen. Det är ofta mycket svårt att fastställa om det råder publikationsbias, men det finns verktyg som stöd för att bedöma det [101] [102]. Ett annat sätt är att söka i databaser över registrerade studieprotokoll, för att se om det finns fler studier som har påbörjats men ännu inte publicerats.
En vanlig metod som kan användas för att få en uppfattning om risken är att göra ett så kallat trattdiagram (eng. funnel plot, se Figur 7.4). Trattdiagrammet kan konstrueras i RevMan eller CMA om det finns många publicerade studier, ofta behövs ett minimum på 12 studier. I diagrammet jämförs storlek och resultat från varje enskild studie. Om det inte finns någon publikationsbias liknar resultatet en symmetrisk upp-och-nervänd tratt – därav namnet. Om grafen däremot är asymmetrisk kan det finnas skäl att misstänka publikationsbias, framför allt om små studier med negativa resultat saknas. Det kan dock finnas andra orsaker bakom asymmetrin, så att enbart använda trattdiagram räcker inte för att fullt ut påvisa publikationsbias [101], se Faktaruta 7.5.
7.2 Metaanalys av icke-randomiserade studier och exponeringsstudier
Metaanalyser baseras huvudsakligen på resultat från randomiserade studier. Det går att göra metaanalyser som grundar sig på resultat från icke-randomiserade studier, men det är ofta mer arbetskrävande. Grundprincipen är dock den samma: att analysera resultaten för insatsens och jämförelsegruppens effekter. Ett problem med att göra metaanalyser av studier utan randomisering är att de ofta använt olika metodik. Det kan till exempel bero på om det finns en matchad jämförelsegrupp vid baslinjen, det vill säga de mätningar som görs före insatsen, eller om författarna har skapat en matchning i efterhand genom någon form av multivariat metodik. Variationen kan också bero på att studierna har olika många jämförelsegrupper och mäter utfallen vid olika tidpunkter.
En annan viktig aspekt vid metaanalys av icke-randomiserade studier är att ta hand om frågorna om confounding (förväxlingsfaktorer) och kausalitet (orsakssamband), se Avsnitt 5.1.2.2. Ofta är det orsakssambandet som är av intresse; om en viss faktor A påverkar utfallet B. Ibland kan det dock finnas förväxlingsfaktorer, så att det verkar som att faktor A leder till utfallet B, men i själva verkat är det förväxlingsfaktor C som påverkar sambandet. Att en viss faktor ofta förekommer tillsammans med ett problem bevisar inte att det är den som orsakar problemet och ännu mindre att problemet skulle försvinna om faktorn togs bort. Vid tillräckligt stora randomiserade studier är tanken att olika förväxlingsfaktorer som kan påverka utfallet kommer att fördelas jämnt mellan grupperna som jämförs, och därmed kommer deras påverkan på utfallet att bli marginell eller obefintlig. I icke-randomiserade studier finns istället olika statistiska analysmetoder som justerar för att grupperna har olika fördelning av förväxlingsfaktorer. Till exempel kan grupperna skilja sig åt vad gäller ålder och kön, vilket i så fall går att justera för. Grundregeln är att sammanväga studier som har justerat för samma eller snarlika förväxlingsfaktorer. Ett större problem är att det kan finnas dolda skillnader mellan grupperna som inte kan justeras för eftersom det är okänt att de finns där. Sammanfattningsvis behöver mer avancerade statistiska metoder användas för att hantera data från icke-randomiserade studier när orsakssamband undersöks. I stället är det vanligt att försöka analysera risk- och skyddsfaktorer eller funktionshindrande och funktionsfrämjande faktorer, det vill säga faktorer som förekommer tillsammans med ett hälsotillstånd, behov eller problem och som statistiskt är kopplade, antingen associerade eller korrelerade, till problemet men inte nödvändigtvis orsakar det.
7.2.1 Sammanvägning när underlaget består av både RCT-studier och andra studiedesigner
Randomiserade och icke-randomiserade studier bör inte läggas in i samma metaanalys [30]. Om det finns randomiserade studier kommer de nästan alltid att ge ett tillförlitligare resultat. Kvasirandomiserade studier och klusterrandomiserade studier kan dock gå bra att väga ihop med RCT-studier om grupperna är likartade vid baslinjen. Observationsstudier bör dock oftast hantera separat. Om underlaget består av ett fåtal små, randomiserade studier och flera stora icke-randomiserade studier kan separata metaanalyser göras för att undersöka om de visar samma eller avvikande resultat.
7.2.2 Val av programvara
Det finns flera programvaror som kan användas för att göra metaanalyser för insatsstudier. Ett vanligt program är RevMan från Cochrane Collaboration. När mer komplicerade beräkningar behövs finns möjlighet att använda till exempel programmen Comprehensive Meta-analysis (CMA) eller R (paketet metafor). Det finns också gratisprogramvaror som JASP och JAMOVI.
7.3 Metaanalys för diagnostisk tillförlitlighet
Studier om diagnostisk tillförlitlighet skiljer sig från insats- och observationsstudier på flera sätt, vilket ställer andra krav på vilka metoder som kan användas för att göra en metaanalys. Tre viktiga skillnader är:
- effektmåtten
- tröskelvärden
- hög heterogenitet.
Sensitivitet och specificitet är beroende av varandra så att en ökad sensitivitet sker på bekostnad av en sänkt specificitet och vice versa. Metoden för metaanalysen måste kunna hantera två olika utfallsmått i en och samma analys. Tröskelvärdet påverkar sensitiviteten och specificiteten. Ett lägre tröskelvärde kommer göra att sensitiviteten ökar och omvänt leder ett högt tröskelvärde till att specificiteten ökar. Om studierna har använt olika tröskelvärden måste metaanalysen kunna ta hänsyn till det.
Diagnostiska studier uppvisar dessutom oftast heterogena resultat om de har olika individsammansättning, om deras tröskelvärde varierar eller om båda föreligger. Att väga samman resultaten från dem i metaanalyser är därför inte alltid lämpligt.
För att kunna gör en metaanalys om diagnostisk tillförlitlighet behövs metoder som tar hänsyn till både sensitivitet och specificitet, förhållandet mellan dem och heterogeniteten i testets tillförlitlighet (eng. test accuracy). Metoderna som används för metaanalys finns utförligare beskrivna i Cochrane Collaborations handbok [104].
7.3.1 Hierarkiska modeller
För att kunna ta hänsyn till den oftast negativa korrelationen mellan sensitivitet och specificitet, heterogeniteten och att studier använder olika tröskelvärden behövs multivariata metoder för att utföra metaanalys [104] [106] [107].
Det har utvecklats två så kallade hierarkiska modeller för metaanalyser av diagnostiska studier: den bivariata modellen och den hierarkiska sROC-modellen (HSROC). Modellerna består av två nivåer för att modellera data. På den första nivån behandlar modellerna variationen i sensitivitet och specificitet inom varje studie och på den andra nivån hanterar de variationer mellan studierna.
Parametrar som skattas med hjälp av båda modellerna läggs sedan in i RevMan-programmet. Resultatet blir antingen en sammanfattande punkt för sensitivitet och specificitet med bivariatmodellen eller en sROC-kurva (HSROC).
7.3.1.1 Sammanfattande punkt
Metaanalys som ger en sammanfattande punkt för sensitivitet och specificitet, en så kallad bivariat analys, användas när resultaten bygger på samma tröskelvärde. Förutom punkten ger metaanalysen en 95-procentig konfidensregion och en 95-procentig prediktionsregion, se exempel i Figur 7.5.
Konfidensregionen baseras på konfidensintervallet för den sammanfattande punkten. Prediktionsregionen uppskattar området inom vilket vi skulle förvänta oss resultat från en framtida studie. Den är därför bredare än konfidensregionen. Konfidens- respektive prediktionsregionen är användbara för att illustrera osäkerheten i punktens värden och graden av heterogenitet.
7.3.1.2 HSROC-kurva
När resultaten i studierna baseras på olika tröskelvärden är det bättre att beräkna en summerande hierarkisk ROC-kurva, en så kallad HSROC-kurva. Figur 7.6 visar exempel på en sådan. Den blå linjen visar samband mellan sensitiviteten och specificiteten utifrån olika tröskelvärden. Att punkterna är utspridda längs hela ROC-arean beror på att studierna använder olika tröskelvärden. Punkternas avstånd från kurvan ge dig en uppfattning om hur heterogena de är – ju längre bort från kurvan punkterna ligger, desto mer heterogena är resultaten.
7.3.1.3 Sammanfattande punkt eller HSROC-kurva?
Vilken hierarkisk modell man bör välja beror på om den diagnostiska tillförlitligheten ska gälla ett visst tröskelvärde eller över flera. Ibland kan det vara meningsfullt att beräkna både en sammanfattande punkt och en HSROC-kurva eftersom analyserna då kan ge olika information och komplettera varandra.
Studierna som har inkluderats kan rapportera resultat på olika sätt. Om alla studierna har använt liknande tröskelvärden går det med fördel att redovisa resultaten i en sammanfattande punkt. Även när det är möjligt att definiera ett gemensamt tröskelvärde kommer det finnas större eller mindre variationer mellan studieresultaten. Variation kan uppstå på grund av skillnader i kalibrering av instrument, subjektiv tolkning av resultat samt skillnader i genomförande av testet.
Om varje studie rapporterar sensitivitet och specificitet för ett tröskelvärde men har använt olika tröskelvärden är det meningslöst att presentera metaanalysresultat i en sammanfattande punkt. Då behövs en HSROC-kurva som beskriver hur sensitivitet och specificitet varierar med tröskelvärdet.
Om några eller alla studier rapporterar sensitivitet och specificitet för flera tröskelvärden kan man antingen räkna fram flera sammanfattande punkter, en för varje tröskelvärde, eller konstruera en HSROC-kurva över flera olika tröskelvärden. Tänk bara på att då enbart använda ett tröskelvärde per studie.
7.3.2 Heterogenitet
Heterogenitet i metaanalyser av diagnostiska studier är snarare regel än undantag. Testets sensitivitet och specificitet kan skilja sig åt mellan studierna beroende på deras studiedesign, genomförande, sammansättning av deltagare, insats, indextest, referenstest och tröskelvärde. Därtill tillkommer sådan heterogenitet som orsakas av slumpen, och sådan som orsakas av systematiska fel som följd av brister i genomförandet av studierna.
En kopplad forest plot kan ge dig en snabb visuell överblick över heterogeniteten, som den i Figur 7.7. Ett annat sätt att undersöka heterogeniteten är att inkludera variabler som är karakteristiska till studierna, så kallade kovariater, i de hierarkiska modellerna. Kovariaterna kan exempelvis vara kön, ålder, blindning, antal besök i familjeterapi eller läkemedelsdos. Genom att välja en kovariat åt gången går det att studera dess inverkan på effektestimaten. Bivariatmodellen och HSROC-modellen skiljer sig i hur kovariaterna är inkluderade. Med bivariatmodellen undersöker man hur kovariaterna påverkar testets sensitivitet och specificitet. Med HSROC-modellen undersöker man kovariaternas effekt på hur sROC-kurvan ser ut och var den placerar sig i ROC-arean.
I Faktaruta 7.6. finns ett detaljerat förslag till hur man kan lägga upp arbetet med en metaanalys på diagnostisk tillförlitlighet.
7.4 Metaanalys av prediktionsstudier
Liksom för studier som undersöker diagnostisk tillförlitlighet förekommer heterogenitet när resultaten från prediktionsstudier vägs samman. Överväg därför noga om det är lämpligt att kombinera resultatet från dem statistiskt i en metaanalys.
7.4.1 Metaanalys av studier om prediktionsfaktorer
Studier om prediktionsfaktorer presenterar vanligen resultaten i form av en hazardkvot (HR), en oddskvot (OR) eller en riskkvot (RR) [109]. Undersök alltid att samma effektmått används och tänk på att det inte alltid är möjligt att inkludera olika effektmått i en metaanalys. Ytterligare en sak som bör undersökas är om författarna har justerat för samma kovariater i analyserna. Studierna som ingår i en metaanalys bör som regel ha justerat för viktiga kovariater. Överväga om de är så pass olika att de inte bör vägas samman. Det är möjligt att i en metaanalys få en visuell översikt av resultaten för att se hur de förehåller sig till varandra oavsett om de går att väga samman eller inte.
Heterogeniteten bör alltid analyseras via exempelvis känslighetsanalyser genom att beräkna och presentera prediktionsintervall eller en metaregression. Mer information om metaanalyser av resultat från prediktionsfaktorer finns här [110] [111].
7.4.2 Metaanalys av studier om prediktionsmodeller
Det går att väga samman data från olika primärstudier om prediktionsmodeller. Heterogenitet i data kan förväntas och möjliga orsaker till den bör analyseras. De effektmått som då ska vägas samman är dels diskriminering, dels kalibrering. Se kap 3 för en närmare beskrivning av dessa begrepp. I Faktaruta 7.7 går det att läsa mer om statistiska överväganden vid metaanalyser av studier om prediktionsmodeller. Mer information om metaanalyser av resultat från prediktionsmodeller finns här [112] [113]:
7.5 Nätverksmetaanalys
Metaanalyser av randomiserade kontrollerade studier (RCT-studier) anses ofta vara den bästa möjliga studiedesignen vid utvärdering av evidens för insatseffekter, till exempel jämföra insats A med insats B. Ibland saknas dock möjlighet till den här typen av direkta jämförelser mellan insatser. Då finns möjlighet att göra nätverksmetaanalyser (NMA). Nätverksmetaanalyser är en vidareutveckling av metaanalyser där det dels är möjligt att jämföra insatser där direkta jämförelser saknas, dels jämföra fler än två insatser samtidigt. Se Figur 7.8 för ett exempel på en visuellt beskriven nätverksmetaanalys med hjälp av ett evidensnätverk.
Nätverksmetaanalys är ett paraplybegrepp som innefattar en rad olika statistiska modeller för att analysera data. Ett vanligt exempel på det är indirekt jämförelse (eng. indirect treatment comparison, ITC) där insatserna av intresse helt saknar direkta jämförelser med varandra och därför jämförs med någon annan gemensam insats, till exempel placebo. En variant av indirekt jämförelse är Buchermetoden där alla parvisa jämförelser som läggs in i analysen behöver vara oberoende av varandra, det vill säga det får inte förekomma studier med armar för flera insatser. En annan vanlig variant är mixed treatment comparison (MTC) där det finns både indirekta och direkta jämförelser som kompletterar varandra. MTC-analyser används för mer komplexa nätverksmetaanalyser, så kallade evidensnätverk. I evidensnätverken lägger man in alla insatser från studierna som noder, och aktiva jämförelser som streck mellan noderna. Streckade eller svagare linjer kan betyda indirekta jämförelser.
Förutsättningar för att göra en nätverksmetaanalys är att studierna som ingår ska vara lika varandra sett till exempelvis studiedesign, population, deltagarnas ålder och tillståndets svårighetsgrad eller behovets angelägenhetsgrad. Nätverket ska hypotetiskt kunna motsvara ”en enda stor RCT-studie” där en grupp deltagare slumpmässigt har fördelats till varje studie som ingår i det. För att få så lite heterogenitet som möjligt i analysen bör insatserna som tas med vara jämförbara i ett och samma nätverk.
Jämförelser görs normalt sett bara mellan insatser som sitter ihop i ett gemensamt nätverk och har någon form av gemensam koppling, till exempel att de har samma jämförelse som placebo eller sedvanlig insats. Det finns även metoder där också insatser utan gemensamma noder kan hanteras så kallat disconnected networks. I Faktaruta 7.8 finns mer att läsa om val av utfall och bedömning av nätverksmetaanalyser.
För bedömning av kvaliteten i en nätverksmetaanalys har ISPOR tagit fram en mall med en grundlig genomgång av de olika momenten [114]. För att bedöma evidens från en nätverksmetaanalys har GRADE Working Group tagit fram underlag [115] [116] [117] [118].
7.6 Syntes utan metaanalys
Om studierna är mycket heterogena och skiljer sig avsevärt åt sett till deltagare, insats, jämförelseinsats eller utfallsmått kan det vara olämpligt att sammanställa data i en metaanalys. Man kan då istället sammanfatta studiernas resultat genom att beskriva dem i text. Ibland kan det vara möjligt att göra en övergripande analys av sammanvägda resultat genom en syntes utan metaanalys. Det kan till exempel fungera om studierna undersöker samma fenomen men presenterar olika effektmått som inte går att väga samman statistiskt, eller när det finns både randomiserade kontrollerade studier och studier utan randomisering i samma underlag.
Vid en syntes utan metaanalys ställs krav på att tydligt i text eller tabell beskriva studiernas likheter och olikheter och vikten av de individuella resultaten. I stället för att visa ett specifikt metaresultat med konfidensintervall kan exempelvis tillförlitligheten i en resultatriktning bedömas. Exempelvis kan sinsemellan olika insatser eller olika uppföljningstider visa på en tydlig positiv resultattrend. En forest plot kan ibland också ge visuell hjälp om det exempelvis visar resultaten för varje enskild studie med samma utfallsmått, inklusive deras konfidensintervall. Diagrammet gör materialet mer överskådligt än om redovisning sker med de enskilda utfallen i separata figurer eller i löptext. Någon sammanvägd effekt ska däremot inte matematiskt räknas fram i detta fall. Istället blir det viktigt att tydligt beskriver hur syntesen har utförts, så att läsaren förstår vilka överväganden som har gjorts. I Cochranes handbok [120] finns mer detaljerad information om olika metoder för syntes utan metaanalys, och det finns riktlinjer för hur rapporteringen bör gå till: Synthesis Without Meta-analysis (SWiM).
7.7 Syntes av kvalitativ evidens
Några år efter att kvantitativ metaanalys hade etablerats som en metod inom samhällsvetenskaplig forskning presenterades en motsvarande metod för synteser av studier med kvalitativ metodik: metaetnografin [121]. Numera finns ett stort antal syntesmetoder beskrivna i litteraturen och i olika handböcker. Vissa används för att beskriva ett fenomen utan att vidare tolka resultaten, andra används för att tolka eller förklara och ytterligare andra kan innehålla såväl beskrivande analys som en tolkning. I många metoder är målet att syntesen ska gå utöver primärstudierna, det vill säga att syntesen leder till en helt ny tolkning som inte kan avläsas från de enskilda studierna [122]. Det finns för närvarande ingen metod för syntes av kvalitativ evidens som kan ses som ett givet förstahandsalternativ i systematiska översikter och HTA-rapporter, men ofta kan metoderna metaaggregering och tematisk syntes vara bra alternativ [24]. Gemensamt för många av metoderna är att de bygger på en stegvis kondensering eller aggregering. Hur detta kan se ut finns beskrivet i Figur 7.9.
EU har stöttat ett forskningsprojekt om kvalitativ syntes [46] som kom fram till att valet av syntesmetod påverkas av sju olika aspekter som sammanfattas i ramverket RETREAT (review question, epistemology, time, resources, expertise, audience and purpose och type of data) [24]. En utförligare beskrivning av dem finns i Faktaruta 7.9.
I avsnittet nedan beskrivs kortfattat två syntesmetoder som är vanliga i HTA-rapporter: metaaggregering och tematisk syntes. Det finns fler metoder som går att använda om de som utför syntesen har tillräcklig erfarenhet av och ser den som bäst lämpad för att besvara forskningsfrågan. Se information om andra metoder här [24].
7.7.1 Metaaggregering
Metaaggregering är en textnära metod som lämpar sig väl när underlaget består av många studier med ”tunna” data. Programvaran SUMARI (eng. the system for the unified management, assessment and review of information) och dess verktyg QARI (eng. qualitative assessment and review instrument) stödjer hela processen för metaaggregering, inklusive granskning av studierna. Den granskningen är däremot inte direkt användbar för bedömning av de syntetiserade fyndens tillförlitlighet med CERQual. Mer om detta går att läsa i Kapitel 8.
Metoden grundar sig i pragmatism och fenomenologi [105] [123]. Metaaggregering är ingen tolkande analys av data från primärstudierna. Istället koncentrerar sig metoden på ursprungsförfattarnas fynd i form av exempelvis kategorier och teman och sammanfattar gemensamma och motstridiga fynd från de inkluderade studierna så att de kan användas som grund för rekommendationer. Syftet är att balansera komplexiteten i primärstudierna med hur användbara fynden blir för praktiker och beslutsfattare.
Studier som använder olika ansatser kan inkluderas i samma syntes. Fynd från studierna betraktas här som resultat på nivå 1 och därefter aggregeras dessa vidare till kategorier på nivå 2 och syntetiserade fynd på nivå 3. Ett praktiskt exempel på hur metoden tillämpas finns här [105]. I Faktaruta 7.10 finns mer information om de steg som ingår i en metaaggregering.
7.7.2 Tematisk syntes
Även tematisk syntes lämpar sig väl om underlaget består av stora mängder studier och ”tunn” data, men tematisk syntes fungerar också med rika data. Metoden används ofta för frågor om behov och för frågor om hur acceptabla och lämpliga olika insatser är. Metoden, som utvecklades av Thomas och Harden [124], har ingen stark filosofisk komponent och studier inkluderas utan hänsyn till deras respektive vetenskapsteoretiska ansats. Enligt metodens principer granskas relevanta studiers metodologiska stringens och samtliga relevanta studier inkluderas i syntesen. Därefter görs en sorts sensitivitetsanalys för att undersöka om metodproblem slår igenom i resultaten.
Syntesen består av tre steg:
- koda primärstudiernas fynd
- konstruera deskriptiva teman
- utveckla analytiska teman.
De två första stegen är textnära (eng. data-driven) medan det tredje är teoridrivet. När forskningsfrågan handlar om till exempel behov kan frågan ses som ett teoretiskt ramverk. I Faktaruta 7.11 finns en beskrivning av de steg som ingår i en tematisk syntes.
8. Tillförlitlighet av det sammanvägda resultatet
Detta kapitel handlar om att bedöma hur tillförlitligt det sammanvägda resultatet är. SBU och många andra HTA-organisationer tillämpar GRADE (grading of recommendations assessment development and evaluation) [125] som stöd för att bedöma resultat från kvantitativa studier. Principerna för GRADE beskrivs i GRADE Handbook [126]. Mer information om GRADE finns på GRADE Working Group:s webbplats. Observera att GRADE Working group kontinuerligt utvecklar sina processer, och att GRADE därmed inte är ett fastslaget sätt att bedöma tillförlitlighet. För sammanvägningar av studier med kvalitativ metodik används GRADE CERQual, se vidare Avsnitt 8.2.
8.1 GRADE: Tillförlitlighet av sammanvägda resultat från studier med kvantitativ metodik
Detta avsnitt beskriver hur GRADE används liksom hur resultaten presenteras i en så kallad SoF-tabell (summary of findings). Det kan inte nog betonas att GRADE är ett stöd för att projektgruppen ska kunna göra en strukturerad bedömning och att bedömningarna alltid kommer att ha subjektiva inslag. GRADE bidrar genom att motiveringar och överväganden för bedömningarna framgår i SoF-tabellerna.
GRADE är avsett för såväl resultat från systematiska översikter som för rekommendationer i riktlinjer baserade på systematiska översikter. GRADE skiljer mellan en systematisk översikt, som förutsätts vara oberoende av sammanhang (eng. context) och rekommendationer, som är beroende på sammanhanget. För att läsa mer om hur GRADE kan tillämpas för att utarbeta styrkan i rekommendationer se GRADE Handbook [126].
Det sammanvägda resultatet från studier med kvantitativ metodik kan uttryckas på flera sätt, ofta i form av ett punktestimat med ett 95-procentigt konfidensintervall. Även tillförlitligheten av sammanvägda resultat från till exempel syntes utan metaanalys eller sambands- eller exponeringsstudier kan bedömas med GRADE.
Syftet med GRADE är att på ett strukturerat och transparent sätt bedöma osäkerheter och risker i det sammanvägda resultatet. En GRADE-bedömning görs per utfallsmått. Till skillnad från äldre system är inte kvaliteten på de studier som inkluderats i översikten den enda utgångspunkten för att bedöma om resultatet är tillförlitligt. Bristande samstämmighet mellan studierna och problem med överförbarhet är några andra faktorer som påverkar tillförlitligheten enligt GRADE. GRADE kan ses som ett teoretiskt ramverk där resultatet granskas ur olika synvinklar som brukar kallas domäner eller riskområden (eng. domains).
Med GRADE klassificeras tillförlitligheten som hög (), måttlig (), låg () eller mycket låg (). Beskrivningen av de olika nivåerna finns i Faktaruta 8.1.
Bedömningen inleds utifrån antagandet att resultatet har hög tillförlitlighet. Det motsvarar att underlaget består av studier med optimal design för att besvara frågan, till exempel randomiserade studier om frågan gäller effekter av insatser. Tidigare var utgångsbedömningen för icke-randomiserade studier (NRSI, non-randomised studies of interventions), att resultatet har låg tillförlitlighet (), på grund av risken för confounding (förväxlingsfaktorer eller störfaktorer) det vill säga att en eller flera variabler samvarierar med både insatsen och utfallet). Eftersom confounding numera hanteras inom risk för bias bedömningen är utgångsläget oftast hög tillförlitlighet även för NRSI-studier [127].
Därefter bedöms risken för att resultatet har påverkats av osäkerheter i de olika riskområdena. Om osäkerheten som introduceras i ett riskområde är allvarlig, sänker man tillförlitligheten med ett steg. Om osäkerheten är mycket allvarlig sänker man tillförlitligheten med två steg. För icke-randomiserade insatsstudier tillkommer möjligheten att tillförlitligheten ökar, till exempel om effekterna är stora. Observera att en brist i underlaget ibland kan ge avtryck i flera riskområden. Det får då inte bli en ”dubbelbestraffning” så att det görs avdrag flera gånger för samma problem.
8.1.1 Riskområde 1: Risk för bias
Detta riskområde gäller inte risken för bias i enskilda studier, som redan är granskade med stöd av mallarna i Kapitel 5, utan hur stor risken är att det sammanvägda estimatet påverkas av brister i studierna [128]. Ett praktiskt hjälpmedel för att bedöma denna övergripande risk är en sammanställning av riskerna över samtliga inkluderade studier, det vill säga en tabell över risk för bias.
En tumregel när gruppen bedömer risken för bias är att inte göra ett enkelt genomsnitt av bedömningarna av respektive studie. Om det till exempel finns två studier som har flera mycket allvarliga risker och två som har få och mindre allvarliga risker så ska man inte ge totalbedömningen ”allvarlig risk” och dra ner tillförlitligheten ett steg. Istället måste projektgruppen noggrant överväga hur mycket varje studie bidrar till resultatet. Ett sätt att göra det är att utesluta studien ur metaanalysen och se hur mycket det påverkar resultatet. Om studier med mycket allvarliga brister bidrar litet så påverkar de inte heller resultatet i avsevärd omfattning. Titta även på hur stora studierna är och antalet utfall eller händelser som en del av övervägandet. GRADE rekommenderar en försiktig hållning vad gäller att göra avdrag för risk för bias. Det ska finnas en välgrundad uppfattning om att det finns en avsevärd risk för bias i de flesta studierna för att dra av.
Som regel inkluderar inte SBU studier med hög risk för bias i sina analyser. Om man använder systematiska översikter som andra forskare har tagit fram där studier med hög risk för bias har inkluderats kan det vara värt att överväga att ta bort dem från analysen om de förefaller störa resultatet. Nackdelen är att precisionen försämras eftersom antalet deltagare minskar. Det är viktigt att vara rättvis mot materialet, inte exkludera studier med hög risk för bias och sedan vara alltför kritisk vid bedömningen med GRADE i de kvarvarande studierna.
8.1.2 Riskområde 2: Bristande samstämmighet
Bristande samstämmighet, även kallat heterogenitet, betyder att studierna visar olika resultat. Om effekten varierar kraftigt mellan studier kan förklaringar ligga till exempel i att deltagarna haft olika svårighetsgrad av ett tillstånd eller problem, att insatserna eller jämförelserna inte varit tillräckligt lika, att resultaten mätts vid olika tidpunkter eller att studierna haft olika risk för bias [128].
Om det inte går att förklara den bristande samstämmigheten minskar resultatets tillförlitlighet.
Bedömningen av samstämmighet beror på om syftet med analysen är att avgöra om det finns någon effekt över huvud taget eller hur stor effekten är. I Faktaruta 8.2 och i Figur 8.1 till 8.3 finns exempel på hur samstämmighet kan bedömas. Mer information finns också i denna artikel av Guyatt och medarbetare [129].
Ett sätt att undersöka orsaker bakom resultat som skiljer sig åt är att genomföra stratifierade analyser på subgrupper. Dessa ska vara definierade redan i protokollet och funktionellt motiverade, till exempel ha en bakomliggande teoretisk förklaring.
Om subgruppsanalysen ingår i en redan publicerad systematisk översikt föreslår GRADE att analysen undersöks utifrån en uppsättning kriterier [129]:
- författarna har definierat hypoteser om subgrupper och deras riktning på effekten i förväg
- det finns en rimlig mekanism för en subgruppseffekt
- man ser skillnader i effekt mellan olika subgrupper inom studier snarare än mellan studier
- en statistisk analys antyder att slumpen är en osannolik förklaring
- skillnaderna i effekt för en subgrupp är synliga genom studierna och med olika utfallsmått
- subgruppsanalysen är en av få testade hypoteser.
8.1.3 Riskområde 3: Bristande precision
Precisionsdomänen bedöms främst utifrån konfidensintervallet för det sammanvägda resultatet. Ju smalare konfidensintervall, desto högre precision. GRADE fokuserar på konfidensintervallet för den absoluta effekten vid bedömningen av osäkerheter i precisionen. Beroende på vilken fråga som undersöks, kan det vara relevant att undersöka de relativa effekterna. För relativa effekter kan konfidensintervallet dock bli brett även när resultatet baseras på ett stort antal deltagare om antalet händelser i jämförelsegruppen är lågt. Projektgruppen kan då överväga att utgå från konfidensintervallet för den absoluta effekten för att bedöma precisionen [128]. För SBU är den vanligaste utgångspunkten att enbart bredden och läget på konfidensintervallet som bedöms.
Precisionen kan även bedömas utifrån ett på förhand specificerat tröskelvärde. För en närmare beskrivning av hur tröskelvärden konstrueras och används i GRADE hänvisar vi till denna artikel av Guyatt och medarbetare [128]. Se Faktaruta 8.3 om brist i precision även när konfidensintervallen är smala.
8.1.4 Riskområde 4: Bristande överförbarhet
Överförbarhet innebär att resultatet från studierna kommer att vara likartat för det sammanhang som forskningsfrågan avser [130]. Brister i överförbarheten kan bero på skillnader i population, insats, välfärdsystem, utfallsmått samt på indirekta jämförelser.
8.1.4.1 Population och insats
I GRADE finns det sällan skäl att göra avdrag för skillnader i populationerna om det gäller grupper som patienter eller personer som får en omsorgs- eller funktionsfrämjande insatser. Det ska då finnas tunga argument för att till exempel biologiska mekanismer skiljer sig så mycket åt att insatseffektens storlek påverkas. Undantagsvis kan underlaget för ett resultat baseras på helt andra populationer. Ett exempel på det är när man studerar biverkningar på råttor eller penicillinresistens som kan mätas i provrörsmiljö. I dessa fall minskar överförbarheten och enligt GRADE görs då avdrag med två steg. Överförbarheten kan också påverkas av att det i olika välfärdsystem är olika populationer som får likartade omsorgs- eller funktionsfrämjande insatser.
Överförbarheten kan också påverkas av skillnader i sammanhang (eng. setting) och hur en insats implementeras. Studier där insatsen getts av forskare eller utförare där genomförandet kontrolleras noga ger till exempel sannolikt bättre effekter än när insatsen implementeras och genomförs utanför forskarens kontroll. Det kan motivera ett avdrag.
8.1.4.2 Utfall
Det finns två viktiga aspekter på vid valet av utfallsmått och hur det påverkar överförbarheten. Den ena är användningen av så kallade surrogatmått. GRADE bygger på att utfallet mäts med mått som är viktiga för patienten eller individen (se även Kapitel 2 om val av utfall). Utfall som dödlighet, svår sjukdom, hög grad av funktionsnedsättning eller mycket angelägna behov av en stödinsats kan inträffa mer sällan under studietiden. För att sådana utfall ska uppkomma och detta i en mängd som blir tillräckligt stor ur statistisk synvinkel krävs stora studier och långa uppföljningstider. Därför väljer forskare istället ofta indirekta mått. Ett exempel på det är att mäta skolnärvaro som ett indirekt mått för psykisk ohälsa, eftersom psykisk ohälsa är svårare att mäta än skolnärvaro. Andra exempel är att mäta effekter av blodtrycksinsatser som förändrat blodtryck istället för hjärtinfarkt eller död i hjärt–kärlhändelser, eller att mäta effekter av osteoporosinsats som bentäthet istället för frakturer. För att bedöma hur överförbart ett indirekt mått är måste hänsyn tas till bland annat verkningsmekanismer och naturalförlopp. I vissa fall kan det skapa stora brister i överförbarheten, som motiverar två stegs avdrag enligt GRADE. Ett exempel på det är insatser med fosfatsänkande läkemedel för personer med njursvikt och hyperfosfatemi. Om surrogatmåttet förkalkning av kranskärl istället för hjärtinfarkt använts kan ni behöva göra ett stegs avdrag, och surrogatmåttet mätningar av omsättningen av kalcium och fosfat använts kan det motivera två stegs avdrag.
Den andra aspekten att tänka på gäller uppföljningstider som avviker från forskningsfrågan. Effekter vid korttidsmätningar kan ha ett litet värde för att bedöma effekter på längre sikt. Många insatser för att förebygga psykisk ohälsa hos barn har till exempel enbart uppföljningstider på några få månader trots är tänkta att minska problemen på flera års sikt.
8.1.4.3 Indirekta jämförelser
Ytterligare en hörnsten i GRADE är att i första hand basera systematiska översikter på jämförelser mellan två insatser som har förmodad effekt. Ofta saknas sådana direkta jämförelser. Istället kan underlaget bygga på studier som till exempel jämför insatserna var för sig mot placebo eller mot att inte få någon insats alls. Enligt GRADE:s vägledning ska man då överväga att göra avdrag med minst ett steg för bristande överförbarhet [130]. Ett sätt att hantera det problemet är att göra en nätverksmetaanalys. Det är en avancerad statistisk metod som sammanställer såväl direkta som indirekta jämförelser av insatser även när de inte har prövats sida vid sida i samma studie (Avsnitt 7.5).
8.1.5 Riskområde 5: Publikationsbias
Fenomenet publikationsbias, det vill säga att studier av olika skäl inte publiceras alls eller med tidsfördröjning, är sannolikt mycket vanligt, oavsett om det gäller effekter av insatser eller värdet av diagnostiska tester. Se Figur 8.4 nedan för exempel. I Avsnitt 7.1.9 finns mer information om publikationsbias.
I exempelstudien ovan undersökte forskarna om effektstorleken för att minska symtom på egentlig depression med antidepressiva läkemedel påverkades av att de tog med resultat från opublicerade studier i en metaanalys [64]. Av de publicerade studierna visade de flesta av studierna att läkemedlen var effektiva. Ytterligare ett antal studier redovisade ingen signifikant skillnad på det primära utfallet men presenterade resultat för till exempel subgrupper (”positiv vinkel”). Av de opublicerade studierna såg endast två någon effekt av läkemedlen. Konsekvensen blev en överskattning av läkemedlens effekt.
Det kan vara svårt att bedöma hur allvarlig risken för publikationsbias är. Det finns flera metoder som kan ge en fingervisning om att det saknas studier men det behövs indicier från mer än en metod för att motivera avdrag för det. Till skillnad från övriga riskområden i GRADE kan bara ett stegs avdrag göras för publikationsbias. GRADE rekommenderar att man överväger att göra avdrag med ett steg om underlaget enbart består av små studier [131]. Om studierna dessutom är sponsrade av företag eller om studieförfattarna har någon annan form av intressekonflikter ökar risken för publikationsbias. Om underlaget består av många studier kan även risken för publikationsbias undersökas med hjälp av ett trattdiagram. Läs mer om trattdiagram i Avsnitt 7.1.9.
En viktig informationskälla för att bedöma risken för publikationsbias är sakkunniga på området. Fråga dem ifall de känner till att det finns studier som har presenterats på till exempel kongresser men som inte publicerats i vetenskapliga tidskrifter. Det går också att fråga forskare och forskande företag och organisationer om de har opublicerade studier. Ett annat bra komplement för insatsstudier är att undersöka om det finns några protokoll registrerade i forskningsdatabaserna, till exempel clinicaltrials.gov eller WHO:s databas ICTRP. Registrerade protokoll bör i normalfallet leda till en publicerad studie. Dock är det möjligt att studierna har avbrutits av fullt legitima skäl.
8.1.6 Att bedöma tillförlitlighet när det bara finns en eller ett fåtal små studier
Tillförlitligheten av ett resultat ska bedömas med stöd av GRADE även när det vetenskapliga underlaget är litet, det vill säga om det består av en enda studie eller ett fåtal små studier. Tillämpa GRADE på samma sätt som när det finns ett mer omfattande underlag när det gäller överförbarhet och publikationsbias. Brister i samstämmighet är endast relevant att bedöma om det finns mer än en studie. Ett resultat som bygger på ett klent underlag blir dock mer känsligt för brister som leder till bias eller dålig precision.
8.1.7 Ökar risken för bias när resultaten inte har upprepats?
Risken för bias ökar om en studie inte har upprepats av andra forskare eller forskargrupper. Ett undantag kan vara om underlaget består av en stor studie där flera vård- eller omsorgsgivare deltar, en så kallad multicenterstudie, och där resultaten är samstämmiga mellan de centrum som deltar. De olika centrumen bör då ha bidragit i likartad utsträckning – det får inte vara så att ett enskilt, stort center fått en dominerande effekt på studiens resultat.
Risken för att resultatet påverkats av bias minskar också om det finns en vetenskaplig grund, och inte bara en rimlig hypotes. Det gäller särskilt om det finns en känd verkningsmekanism eller om insatsen bygger på en teoretiskt välunderbyggd och allmänt vedertagen programteori. På samma sätt minskar risken att resultaten påverkats när det finns vedertagna likartade insatser inom samma område som har bekräftad effekt, till exempel läkemedel inom samma läkemedelsklass eller föräldrastödsprogram som bygger på liknande komponenter.
Slutligen minskar risken att resultaten påverkats om resultaten är likartade för olika utfallsmått, till exempel att samtliga visar en statistiskt signifikant effekt, eller om utfall med olika känslighet uppvisar samma trend. Om resultaten skiljer sig åt behöver det inte försvaga tillförlitligheten om det finns en bra förklaring, exempelvis om bortfallen för olika utfallsmått är olika stora.
8.1.8 Finns det risk för att förväntningar eller bristande forskningsetik påverkat resultatet?
När underlaget består av en enda studie eller av flera små studier där en enda forskare eller forskargrupp haft ett stort inflytande bör man vara extra uppmärksam på risken för att data har snedvridits. Studierna och de analyser som ingår kan nämligen ha vinklats för att bekräfta en viss hypotes och i värsta fall kan data vara fabricerade. Om projektgruppen bedömer att det finns en risk för felaktig rapportering kan det motivera ett extra avdrag i domänen risk för bias. Maximalt avdrag blir då alltså tre steg.
Resultatet kan anses vara mer tillförlitligt när studien är gjord av forskare som inte själva har utvecklat metoden eller insatsen som de studerar.
8.1.9 Är antalet observationer så litet att slumpen får en avgörande roll?
Det viktiga är inte hur många deltagare studien har utan hur många händelser som observerats. När det finns få händelser spelar slumpen en större roll. Det går dock inte att ge några generella råd om vad som är för få eller tillräckligt många observationer utan det behöver avgöras från fall till fall. Problem med få observationer hanteras inom domänen Precision.
Om den statistiska säkerheten i studien är övertygande med ett stort antal händelser så stärker det tillförlitligheten.
8.1.10 Faktorer som kan öka tillförlitligheten av det sammanvägda resultatet
För kontrollerade studier utan randomisering kan det enligt GRADE undantagsvis finnas skäl att gradera upp tillförlitligheten ett eller två steg [132]. Tre faktorer nämns som kan öka tillförlitligheten:
- den sammanvägda effekten av en insats är mycket stor
- det finns ett samband mellan exempelvis dos av ett läkemedel eller antal gånger en psykosocial insats genomförs och effekten på ett relevant utfall (medicinsk term: dos-responssamband)
- det finns kända confounders (förväxlingsfaktorer) som resulterar i en lägre effekt.
En förutsättning för att kunna gradera upp tillförlitligheten är dock att risken för bias inte får vara allvarlig.
8.1.11 Sammanställning i en SoF-tabell
Sammanvägda resultat för de olika måtten och deras tillförlitlighet ska redovisas i ett standardiserat format, en så kallad SoF-tabell (eng. summary of findings), se Tabell 8.1 [133] [134]. Syftet med tabellen är att underlätta för läsaren att förstå och tolka resultaten. Det måste framgå om det är ett punktestimat med konfidensintervall eller att det finns någon effekt överhuvudtaget som bedöms med hjälp av GRADE, För läsaren kan det vara intressant att kunna läsa om både relativa och absoluta effekter. Det kan också vara värdefullt att dela upp resultat för deltagare med olika risker vid baslinjen. Relativa effekter är visserligen mer likartade oavsett risk, men uppgifter om absolut risk kan underlätta beslut i vård och socialtjänst.
1 En effektskillnad vad gäller smärta med cirka 0,7 skalsteg på en skala 0–10 bedömer vi som mycket liten effekt. 2 Bristande överförbarhet: studiedeltagarna var i genomsnitt cirka 60 år. Vår frågeställning berör individer 65 år och äldre. KI = Konfidensintervall; RCT = Randomiserad kontrollerad studie; RD = Risk difference |
||||
Utfallsmått | Antal individer respektive studier | Sammanvägt resultat | Tillförlitlighet i vetenskapligt underlag | Kommentarer |
---|---|---|---|---|
Oxikodon 10–160 mg jämfört med placebo | ||||
Förändring på numerisk smärtskal (0–10)< |