I en ny studie vid Institutet för arbetsmarknads- och utbildningspolitisk utvärdering jämfördes tre olika metoder för att förutsäga arbetslösas sannolikhet att hitta ett jobb inom sex månader. Forskarna undersökte om den arbetslösas egen bedömning, arbetsförmedlarens bedömning eller avancerade algoritmer inom maskininlärning gav det bästa resultatet.
Maskininlärningsmodellen visade sig oftast vara bäst på att med hög noggrannhet förutsäga den arbetssökandes jobbchanser, men det fanns också tillfällen då den arbetssökande själv var bättre, eller lika bra, på att bedöma sina jobbchanser. Kvinnors självbedömningar är generellt något mer korrekta än algoritmerna, och även yngre har lättare att göra korrekta uppskattningar av sina jobbchanser.
– Den här typen av förutsägelser kan vara viktiga för att ge de arbetslösa den hjälp och de insatser de eventuellt behöver i ett tidigt skede. I det dagliga praktiska arbetet på en arbetsförmedling vill man undvika att felklassificera individen, och då är maskininlärningen det bästa verktyget av de tre, säger Gerard van den Berg som är en av flera forskare bakom rapporten.
De allra bästa prediktionerna kommer dock av en sammanvägning av alla metoder.
– Vår forskning har gett oss värdefulla insikter om arbetslöshetsprognoser. Vi bedömer att det är särskilt värdefullt att kombinera algoritmen med den arbetslöses egen bedömning. Allt fångas inte av en algoritm baserad på historiska data, avslutar Gerard van den Berg.
Mer om analysen
Den empiriska analysen bygger på data från den federala arbetsförmedlingen i fem tyska delområden 2011–2013. Dels används registerdata för cirka 60 000 arbetslösa för att träna algoritmen, dels används enkätdata från knappt 1 200 arbetslösa och deras arbetsförmedlare.
I working papret används random forrest, vilket är en specifik typ av maskininlärningsalgoritm som används för att göra förutsägelser. Metoden kombinerar flera så kallade beslutsträd för att förbättra prestanda och minska risken för överanpassning (överträning). Det är enligt forskarna ett kraftfullt verktyg för att hantera komplexa uppgifter som klassificering och regression.