Dålig datakvalitet upptäcks lite sent och oftast inte förrän man sitter framför tangentbordet och skall genomföra analysen; huvudregeln är ’var misstänksam utav bara h-e! Misstro allt!’. Det kan till och med vara så att matematiken slår bakut och vägrar att samarbeta.
Låt mig ge några exempel:
Beroende mellan kolumner. Din datamängd innehåller många kolumner som du vill ha med i analysen som förklaringsvariabler. Det finns dock en risk att mellan kolumnerna, osynligt för dig, finns det beroenden. Kanske en kolumn egentligen kan helt beräknas från flera av de övriga, alltså ett solklart beroende. Då går det inte att fortsätta analysen, du måste eliminera den beroende kolumnen. Dålig datakvalitet? Ja åtminstone då. (Även om det inte är ett hundraprocentigt beroende kan detta skapa stora osäkerheter i dina slutsatser.)
Gamla data. Flera av dina databaser är kanske gamla och då finns det stor risk att variabler har omdefinierats eller omklassats. ”Det finns fyra nivåer i denna kolumn (0, 1, 2, 3)” men eftersom du är misstänksam har du gjort en tabell och finner bara tre nivåer. ”Javisst ja, vi gjorde en omklassificering av diagnoserna, men när…?”. Och det kanske inte finns någon som längre vet… Dålig datakvalitet?
Fel datum. När jag skulle analysera returer inom elektronik fanns det mängder av data där returdatum var långt tidigare än inköpsdatum! Dålig datakvalitet? Själva format på datum var korrekt men inmatningsrutinen var bristfällig.
Idiotiskt. Ibland finner du att man lagt dagen (till exempel XXXX-XX-XX) i en kolumn och timme /minut (till exempel hh:mm) i en annan! Du skulle ju aldrig komma på den befängda idén att skriva ”20,7 mm” med ”20” i en kolumn och ”7” i en annan. Värdet av ”XXXX-XX-XX hh:mm” är ju en punkt på tidsaxeln.
Beräknade variabler. En viktig regel för databaser är att man inte skall lagra kolumner som kan beräknas ur övriga. Ibland kan man se att en uträknad felkvot finns som en kolumn, tillsammans med antalet i stickprovet, men din analys vill ’antal fel’ och ’stickprov’. Det betyder att du måste beräkna ’antal fel’ ur det två andra uppgifterna. Dålig datakvalitet? Rätt siffror men illa tänkt.
Dålig inmatningskontroll. Det är förvånande hur många databaser som uppdateras med data som inte utsatts för kontroll vid inmatning. Du kan sålunda få numeriska data med antingen decimalpunkt eller decimalkomma eller att bokstaven ’O’ slunkit in som siffran ’0’. Dålig datakvalitet som ger dig huvudbry och mycket datatvättande.
Avhuggna svansar. När du kollar dina data skapar du antagligen ett antal histogram. Där du förväntar dig en hyggligt symmetriskt och normalfördelad graf ser du att svansarna saknas, dessutom exakt där toleranserna finns. Dålig datakvalitet? Definitivt och du misstänker det vanliga det vill säga man vill inte gärna underkänna ett mätvärde utan med rätt hantering av skjutmått eller mikrometer går det att få värden inom tolerans.
För lite variation. Antag att en variabel är ’antal partiklar per kubikfot’ (antalsvariabler är väldigt vanliga). Du gör även här på vanligt sätt ett histogram över data men beräknar även medelvärde och varians. Kvoten mellan dessa värden skall vara ungefär 1 men du får något helt annorlunda. Är data manipulerad eller finns det en okänd felkälla?
Dålig datakvalitet? Kanske inte. (Antalsdata är ofta Poissonfördelat och i en sådan är variansen lika med medelvärdet.)
Ett annat sätt att visa för lite variation är att medelvärdesbilda över flera mätningar innan ett resultat lagras. Detta är naturligtvis svårt för dig att upptäcka, kanske behövs det andra källor att jämföra med.
Extrema värden. Extrema värden, ofta kallade outliers, är en akilleshäl i datasammanhang. Ibland kan du upptäcka dylika genom att göra en stor mängd ’diagnostiska data’-grafer. Alltså inte grafer att senare presentera utan bara för att kolla kvalitet. Men kanske ett eller flera avvikande värden inte är avvikande i meningen felaktiga utan kanske en guldgruva! Men ibland kan du säkert hitta värden som definitivt är felaktiga till exempel negativa värden där endast positiva är möjliga, eller decimaltal där endast heltal är möjliga.
Du är inte färdig än
Efter mycket arbete med tvättning, rensning och försök till förståelse av datamängden är du ännu inte färdig. Personen som skapat till exempel kolumnnamn, text i celler, med mera har ansträngt sig för att ge det läsbara benämningar.
Men dessa långa namn ger oftast problem vid analysen; en matematisk modell som innehåller frikostigt med (engelsk text) blir läslig. Du måste alltså jobba med att programmera om ’Gender category’ till ’Gender’ och innehåll såsom ’Male’ och ’Female’ till ’M’ och ’F’.
Nu kan det roliga börja för dig!
Men, men… Min känsla är dock att praktisk analytiskt kvalitetsarbete inte står högt i kurs idag. Jag undrar hur många som har böcker av till exempel Juran, Deming, Cox, Box, Hunter, etcetera, i sitt referensbibliotek och dessutom använder dem. ’Design of Experiments DoE’ av Box-Hunter-Hunter är en klassiker där författarna har ansträngt sig för att hålla matematiken enkel. Läs den!
Därför, bäste kvalitetsarbetare, försök att få din omgivning och dina kollegor att rulla upp ärmarna och skita ner händerna med data. Det är lärorikt och intressant och ger er god valuta för insatsen.
publicerad 3 december 2024