Bäste kvalitetsarbetare, under några sommarveckor hade en av våra större dagstidningar en artikelserie där medarbetare och läsare kunde skriva om stort och smått som irriterade. Låt mig ta upp den tråden och dra fram lite inom dataknådande.
Ingemar räknar: ”Se upp, nu kommer störningsjouren!”
Analys Ingemar Sjöström talar om saker som stör vad gäller diagram, sannolikhet, slutsatser och annat räknemässigt.
Någonting är fel
Läs vidare – starta din prenumeration
Diagram
Diagram i tidningar och tv irriterar ofta. Varför? Jo, om man har ett tidsdiagram ritas detta ibland med en skog av staplar, inte som en linje typ ’feberkurva’ (dessutom olika på olika sidor i tidningen…) Hur skulle man då rita typ två sinuskurvor med fasförskjutning? Som två skogar av staplar?? Eftersom ’stapeldiagram’ används överlag för så kallade histogram blir bilderna lätt förvirrande. När man väl orienterat sig på bilden rycks den i tv bort och ersätts av någon arkivbild som redan visats många gånger.
Inte sällan ser man att diagrammet manipulerats. ”Manipulerats?? Av mig…??” – det vill säga för att göra det lite skojigt (?) ersätter man punkterna med en linje som krökande slingrar sig fram över diagrammet. Det går alltså inte längre att tolka. ”Idiotiskt”, är mitt betyg.
Så avstå ifrån allt lull-lull som ditt datorprogram kan locka dig till.
Sannolikhet – ett litet tal mellan [0, 1]
Uttrycket sannolikhet har ju blivit berömt via Tage Danielssons monolog. Man kan dessutom finna tjocka matematik- eller filosofiböcker om ämnet. Men det blir lite fånigt då meterologen säger ’…risk eller chans för solsken i helgen…’. Varför inte säga just sannolikhet så kan man tolka det själv? Varje sannolikhet har två sidor – sannolikheten (felkvoten) att något går sönder innan garantin gått ut är ju negativt för tillverkaren. Men onekligen en chans för den som lever på att reparera produkterna.
Så har vi uttryckte ’…med största sannolikhet så kommer…’ måste ju betyda att sannolikheten = 1 det vill säga helt säkert! Men det är ju inte vad man menar.
Visst, vi har uttrycket riskanalys även om vi egentligen gör en sannolikhetsanalys (för många stavelser, inte så snärtigt).
Antal händelser
Ofta hör man ’…antal döda i trafiken forsätter att öka…’. Ja, självklart, det kan ju omöjligt minska, folk kan ju inte återuppstå. ’Antalet’ är ju en räknare som för evigt kommer att ticka på. Om man menar ’antal per tidsenhet’ eller dylikt bör man ju skriva det.
Att dra slutsatser
Metoden att undersöka hur en felkvot (eller annan andel) beror på olika variabler kallas för logistisk regression (något du bör lära mer om…). Ofta hör man på t.ex. TV om någon undersökning om människor av detta slag. Häromdagen redovisade man en sådan och påstod att man bara kunde dra slutsatser om grupper av människor. Men det är ju fel! Den modell man fått fram är baserad på ett antal människor och deras egenskaper och vanor. Om man matar in dessa värden för en enskild person får man en skattning felkvoten för en sådan människa. Men notera, resultatet är alltså en sannolikhet i intervallet [0, 1] för att problemet skall inträffa.
Man bör alltså kunna så mycket att man kan förklara och försvara en undersökning som genomförts, inte mumla något infantilt eller omedelbart ropa på mer forskning (standardutropet).
AI/ML (Artificiell Intelligens, Machine Learning)
Och så har vi förkortningen på allas läppar – den som inte nämner AI minst fyra till fem gånger på vecka är helt uträknad, torrboll, knäpp, fattar nada alltså rent ut sagt korkad. Jag är en sådan person.
Ibland – i mitt hörn av mänskligheten – funder jag på vad som inte är AI när varenda liten regressionanalys kallas AI. Jag tror dock att jag kan få ett antal journalister att tro att jag är expert på AI. För några årtionden sedan ordnade jag en rutin som automatiskt gjorde XY-positionsmätningar på en yta (paneler för mönsterkorttillverkning). Värdena överfördes till en dator som analyserade om det fanns sträckningar, vridningar i mönstret (detta orsakade misspassningar och kassation). ’Men visst var det AI’ skulle jag hävda.
En del datorprogram för analys har en typ av regressionsanalys där man kastar in mängder av förklaringsvariabler och låter datorn härja runt en stund och sedan kasta ut mängder av konstiga förklaringar och samband. Är detta AI?
En gång arbetade jag med en testingenjör vid testning av nya mobiltelefoner. Varje enskild telefon skulle optimeras och sedan skulle dessa värden lagras i telefonen. Vi köpte oss några tjocka böcker för att studera nya sätt att optimera. Vi skrev ett program som läste av signalerna från telefon och med en smart algoritm hittade vi optimum inom delar av en sekund. Är detta AI och/eller ML? Skulle vi ha lagrat värdena till nästa telefon för ’Learning’?
Inom statistik analys finns det en gren som heter Bayesiansk analys (slå upp Thomas Bayes, präst på 1700-talet). I korthet innebär att man har en ’a priori’-uppfattning (dvs en uppfattning innan man har data) som bakas ihop med data till en slutsats. ’Men hallå’, säger frekventisten. ”Här skall vi inte ha en förutfattad mening, data skall tal för sig självt!! Innebär ML en förutfattad mening?
Procentsatser
Slarvig och lättjefull användningen av procentsatser är en ständig källa till irritation men jag skall inte upprepa mig, kolla istället här.
Avslutningsvis
Låt mig avsluta med något som kan vara kul att titta på och som kan muntra upp dig. Om jag skulle rita en slarvig klockkurva (’Bell Curve’, normalfördelning) så skulle många säga ’Aha, en normalfördelning!’ Men ack så fel! I stället är det ett Djävulens verk (ett utryck från litteraturen) som heter Cauchy-fördelningen. Den har flera egenskaper som en fördelning skall ha till exempel att ytan under kurva är 1 och att funktionen ligger ovanför nollinjen’ det vill säga alltid positivt.
Men var finns Djävulen? Jo, fördelningen har inget medelvärde (och sålunda inget sigma heller)! Visst, om du har ett antal mätvärden från fördelningen kan du beräkna deras medelvärden men om du tar nya värden så kan resultatet bli milsvitt annorlunda. Stora eller små stickprov spelar ingen roll det blir ända ingen ordning.
Gå in på nätet och kolla fördelningen, hitta mätningar som blir Cauchy-fördelade och ta med din statistikkunnige kompisen på puben för en lärorik runda. Ett guldläge!