21. august, 2024
Farlige mangler: Når ufuldstændige data kan koste livet og forretningen
Af Jakob Kornum – Ekspert i Microsoft Power BI
Skudhuller & strategi under 2. Verdenskrig
Under 2. Verdenskrig blev heltene fra det britiske flyvevåben mødt af en skræmmende virkelighed hver gang, de vendte tilbage til basen efter endte missioner.
De barske realiteter var indgraveret i deres flyvemaskiners skrog som skudhuller fra fjendens kugler.
I et desperat forsøg på at beskytte disse modige sjæle bedre, begyndte man at indsamle data om, hvor på flyene de fleste skudhuller var placeret.
Målet var klart: at forstærke de mest udsatte områder og øge flyenes chancer for at vende helskindet hjem.
Hvis historien i øvrigt har vakt din interesse, kan du få det fulde udsnit herunder:
https://www.trevorbragdon.com/p/when-data-gives-the-wrong-solution
De tavse data skjuler sandheden
Men man overså en væsentlig og vigtig ting.
Det var let at fokusere på de fly, der vendte tilbage – dem kunne man trods alt undersøge. Men hvad med de fly, der aldrig kom hjem igen? Hvad kunne de have fortalt os, hvis de havde haft mulighed for at blive fragtet retur til flybasen?
Svaret ligger begravet i den kolde jord sammen med besætningerne på de tabte fly, og det er en påmindelse om, hvor farligt det kan være at træffe beslutninger baseret på ufuldstændige data.
Denne historie kan stå som en advarsel – ikke kun fra fortiden, men også for nutiden. Det minder os om, hvor vigtigt det er at se hele billedet – især når vi snakker data.
For hvor mange beslutninger træffer vi dagligt baseret på mangelfulde eller forældede data? Det er fristende at arbejde videre med det vi har til vores rådighed, men vi risikerer også at overse noget afgørende og betydningsfuldt. Her kan man fremhæve endnu et eksempel gennem Yahoos famøse beslutning, da de valgte ikke at købe Google – en beslutning baseret på data, der viste sig at være utilstrækkelige og fejlagtige.
For de fleste virksomheder er de kunder, som man ikke har, også de mest interessante – men det er også dem, man måske har den mest ufuldstændige forståelse af. De usete eller ufuldstændigt registrerede data kan ofte rumme uvurderlige indsigter, som vi sjældent prioriterer at indsamle.
Blind sejlads: Risikoen ved manglende data
Forestil dig, at din virksomhed er som et skib på vej gennem isfyldt farvand uden information om isbjerge – uden denne viden kan selv de mindste fejl få katastrofale følger.
Manglen på data er ikke kun et problem for virksomheder; det er en udfordring, forskere og analytikere står over for hver dag. I videnskaben er det almindeligt, at man ikke kan observere alt, og man derfor mangler data. De, der gør deres arbejde ordentligt, forsøger systematisk at kompensere for disse mangler, men det kræver ofte mere end bare at følge standardprocedurer.
Når data mangler, kan det ske på forskellige måder:
- Tilfældigt manglende data (MAR)
Data mangler, men der er et system i galskaben. For eksempel har vi ikke CPR-numre fra før 1968, hvor det Centrale Personregister blev oprettet. Disse data kan ofte tilnærmes matematisk med høj præcision.
- Fuldstændig tilfældigt manglende data (MCAR)
Det er en statistisk term, der refererer til en situation, hvor data mangler på en måde, der ikke er afhængig af værdien af den variabel, som data mangler for. Med andre ord er fraværet af data tilfældigt og ikke relateret til de specifikke værdier, der skulle have været registreret.
- Ikke tilfældigt manglende data (MNAR)
Dette er den mest komplicerede type, både hvad angår at finde den og håndtere den. Det faktum, at data mangler, er relateret til de uobserverede data, dvs. de data, vi ikke har; manglen er relateret til faktorer, vi ikke har taget højde for. Her ser jeg for alvor, at vi kan høste værdi. Det er ofte nemt at lokalisere manglende data, og når vi gør det, er årsagen ofte klar.
Schweizerost-Dilemmaet
I virkeligheden er de fleste datasæt fyldt med huller – ligesom en klassisk schweizerost. Det er vores opgave at identificere disse huller, forstå hvorfor de er der, og finde ud af, hvad vi kan gøre ved dem. At ignorere manglende data kan være som at navigere gennem tågen: uden en klar retning risikerer vi at fare vild.
Derfor er det tid til at give de manglende data den opmærksomhed, de fortjener.
I min karriere inden for Business Intelligence har jeg endnu ikke deltaget i et kundemøde, der handlede om de data, vi ikke har.
Er det ikke på tide, vi begynder at stille de rigtige spørgsmål?
Måske kan vi håbe på, at det snart ændrer sig.