I sin avhandling i matematik har Björn Lindenberg utvecklat en modell för djup förstärkningsinlärning hos så kallade agenter.
En agent är en digital beslutsfattare som kan lära sig att fatta beslut genom att interagera med sin miljö. Genom att maximera belöningar och minimera bestraffningar lär sig AI:n gradvis att utföra önskvärda handlingar och förbättra sin prestanda.
Började på 60-talet
Förstärkingsinlärning hos olika sorters teknik är inte ett nytt område men det är först de senaste decennierna – med den moderna teknikens AI – som teorin har kommit till sin fulla rätt. Redan på 60-talet utvecklade forskare ekvationer för att agenter skulle få en vassare inlärning. Relativt snabbt efter att teorin föddes nådde forskarna det så kallade ”curese of dimensionality”, det vill säga ett fenomen där datan uppnår för många funktioner och nivåer på för kort tid.
Men teorin utvecklades vidare på 80- och 90-talet och idag är AI så pass raffinerad att så kallad djup förstärkningsinlärning inte längre är ogreppbar.
– Man hade helt enkelt för lite data tidigare. Nu kan vi titta på det här på ett annat sätt, och utvecklingen sker i ett rasande tempo. Vi arbetar med framtiden kan man säga, alla hypermoderna algoritmer kommer på sikt att innehålla djup förstärkningsinlärning. Det är framförallt när man parar förstärkningsinlärning med djup maskininlärning som man ser en otroligt stark effekt, säger Björn Lindenberg.
Konstanta förändringar
Teknologin som används i Björn Lindenbergs avhandling är från 2015 och 2016. Eftersom modern AI förfinas från dag till dag är han nyfiken på hur teorierna skulle samspela med dagsfärsk teknik.
– Dagens AI har byggts utifrån en fantastisk ny arkitektur. Ingen kan egentligen hänga med i utvecklingen eftersom det är en kollektiv global ansträngning som har lett fram till det läge vi befinner oss i nu. Bara de senaste två åren har otroligt mycket förändrats. Det vore spännande att se vad som hände om man applicerade mina teorier på dagsfärsk teknik, avslutar han.