Logbog fra Vores gamle Danmarks arbejde med database over faldne i Første Verdenskrig

2. oktober 2018

2287

På siden her kan du finde en logbog over Vores gamle Danmarks arbejde med analyse af en database over faldne med tilknytning til Sønderjylland under Første Verdenskrig drevet af Museum Sønderjylland – Sønderborg Slot.

Siden her indeholder blot logbogen over det nævnte arbejde. Læs om analysearbejdet her.

Læs artiklen, hvor analysens resultater præsenteres her.

Formålet med logbogen her er at dokumentere mit arbejde med den nævnte database – herunder de rettelser, jeg har foretaget. Jeg anbefaler, at du læser artiklerne i ovenstående links først, og derefter kigger på denne side, hvis du er interesseret i at læse om mit arbejde i detaljer.

Overordnet logbog

Opstart

Jeg åbner en kopi af det originale datasæt i Excel.
For at ordne så der ikke er to rækker med beskrivelser af værdier, men kun én række har jeg kopieret alle data ind i det nye ark: cleaning_1 og samlet de to rækker med beskrivelser til én.
Jeg har slået “track changes” fra for at kunne lave pivot tables. Track changes log er slettet.
Jeg har lavet kopi af arket cleaning_1 og kaldt det Cleaning_2.
Jeg fortsætter arbejdet i Cleaning_2.
Jeg opretter en nye kolonne “Ny_Oprindelig ID”. Her får alle rækker et nummer startende med “1”. Den første række, som indeholder oplysninger om en dræbt, får altså nummeret 1 som ID.
Jeg har lavet en del eksperimenter med kopier af ovenstående ark, men dem sletter jeg, og med udgangspunkt i arket cleaning_2 går jeg videre med følgende.
Excel-filen 171129_cleaning_8 bliver kopieret til 171202_cleaning_11_enkelt sheet.
Jeg har slettet alt andet end arket “Cleaning_2” og “originalt” (det originale datasæt) for at være sikker på, at der ikke er sket noget bøvl i forbindelse med eksperimenterne.
Jeg har lavet tre nye, tomme kolonner til højre for Ny_oprindelig ID, Fødsels-dato og dødsdato.
Jeg har startet Track Changes.
Jeg har navngivet den første nye, tomme kolonne “Originalt kolonnenr. (Ny kolonne)”. Her har jeg noteret hver enkelts rækkes originale række nr. fra det leverede datasæt. Det kan bruges til at sammenligne data med det oprindelige datasæt og eventuelle fremtidige rettelser. Kolonnen starter ved 3 og fortsætter til 6570. Denne kolonne er altså “Ny_Oprindelig ID”+2.
Den nye tomme kolonne ved siden af “Fødsels-dato” har jeg givet navnet “Fødsels-dato_til rettelser (ny kolonne)”. Her har jeg kopieret hele “Fødsels-dato” kolonnen over, så jeg kan beholde den oprindelige kolonne som backup og reference. Jeg har lavet stikprøver, som ikke viser nogen fejl.
Den nye tomme række til højre for Dødsdato kalder jeg “Dødsdato_nyt format (ny kolonne)”. Jeg har kopieret hele Dødsdato-kolonnen over i “Dødsdato_nyt format (ny kolonne)”, så jeg beholder den gamle som en backup og reference.
For “Dødsdato_nyt format (ny kolonne)” har jeg ændret format til Dato og yyyy-mm-dd. Jeg laver stikprøver, hvor jeg sammenligner med den originale kolonne. Det ser ud til at være korrekt.
Bemærk: Jeg har ikke nulstillet/fjernet formatteringen, selvom der er meget formattering i det originale datasæt. At jeg ikke nulstiller formatteringen skyldes, at jeg ønsker at køre det ind i OpenRefine med så få ændringer i det originale datasæt som muligt.

Import til OpenRefine

Da jeg jævnligt gemmer nye kopier af Excel-dokumentet med nye filnavne (dato og nummer på filen og evt. kommentar til seneste store ændringer), hedder Excel-dokumentet nu “171202_cleaning_11_enkelt sheet”. Det føres ind i programmet OpenRefine, hvor jeg vælger kun at importere arket (worksheet) “171202_cleaning_11_enkelt sheet.xlsx#Cleaning_2”. Jeg gemmer projektet i OpenRefine med navnet “171202_cleaning_11_enkelt sheet xlsx”.

Første datarensning: Dødsland

Jeg starter med at rense dataen i kolonne Dødssted_dødsland. Denne proces har jeg beskrevet i detaljer længere nede i denne artikel under overskriften “Rettelser i OpenRefine i Dødssted_dødsland”. Her i den overordnede logbog, vil jeg blot beskrive de ændringer, som ikke handler om de enkelte rettelser.
Jeg laver en kopi af kolonnen “Dødssted_Dødsland”, som får navnet BACKUP_originalt_Dødssted_Dødsland. Jeg har brugt funktionen “Expression: Value” baseret på den originale kolonne. Så har jeg en backup af de originale data. Jeg genindskriver de rettelser, jeg allerede på dette tidspunkt har lavet i “Dødssted_Dødsland”.
Jeg laver en kopi af kolonnen “Dødssted_Dødssted” og kalder den “BACKUP_original_Dødssted_Dødssted”. Samme årsag og metode som ovenfor.
Jeg opretter en ny kolonne med navnet “Ny_Region/Område”. Denne kolonne er blank. Her overfører jeg oplysninger om dødssted, som ikke passer i Dødssted_dødsted eller Dødsted_Dødsland. Det kan eksempelvis være, hvis en delstat eller område er angivet som dødssted eller dødsland i det originale datasæt. I de tilfælde skrives den oprindelige indtastning i kolonne “Ny_Region/Område”, mens eksempelvis kolonnen “Dødssted_Dødsland” ændres til det faktiske dødsland.
Jeg gennemgår tidligere rettelser og tilføjer original indtastning i Dødsland_Dødsland i den nye kolonne “Ny_Region/Område”, hvis det før var eksempelvis regionen, der var noteret her. Jeg skriver rettelser nedenfor i “Rettelser i OpenRefine i Dødssted_dødsland”.
I første omgang har jeg gennemgået rækker med indtastninger i “Dødssted_dødsland”, nu begynder jeg at gennemgå de rækker, hvor der ikke er nogle indtastninger i den kolonne. Det drejer sig om 2.725 rækker.
For alle tidligere indtastninger hvor jeg har tilføjet “Sønderjylland (Tyskland)” til Dødssted_Dødsland, har jeg tilføjet i “Ny_Region/Område” “Sønderjylland (Tyskland)”.

Rettelser i kolonnen Dødssted_Dødssted

Jeg bruger funktionen clustering til at finde eventuelle stavefejl og forskellige stavemåder i denne kolonne. Jeg starter med at rense uden filtre som eksempelvis dødssted_dødsland: blank. Jeg bliver langt fra færdig.
Jeg fortsætter med clustering som ovenfor, men springer nu de clusters over, som ikke har Dødssted_dødsland: Blank for at undgå at bruge tid på de rettelser, som jeg ikke skal bruge for at udfylde kolonnen Dødssted_dødsland.
Jeg sætter datarensning af kolonnerne Dødssted_dødsland og Dødssted_dødssted i bero, da jeg efter at have arbejde med de to kolonner kan vurdere, at det vil kræve et enormt tidsforbrug at rense dem. Jeg bemærker, at jeg derfor ikke kan lave analyser, hvor jeg laver en samlet vurdering af dødssted for de faldne.

Tjek for dupletter i datasættet

Jeg går nu igang med at gennemsøge datasættet for eventuelt dobbeltindtastede personer – altså tilfælde hvor samme person er nævnt to gange og dermed tæller som to personer.
Kort fortalt, kan jeg lave tjek efter dupletter ved at lave nye kolonner i OpenRefine, hvor jeg sammensmelter flere kolonner som eksempelvis navn, fødselsdato og dødsdato. Jeg kan så se om den nye kolonne har flere rækker med de samme værdier, og dermed gennemgå de tilfælde, hvor flere rækker har eksempelvis samme navn, fødselsdato og dødsdato. I disse tilfælde har jeg mistanke om, at det er samme person, og jeg kan manuelt tjekke, om det er tilfældet. Jeg vurderer som udgangspunkt kun, at rækker er dupletter, hvis de ikke indeholder væsentlige modstridende oplysninger. Hvis eksempelvis stort set alle oplysninger om to rækker er ens, men de har angivet forskellig fødselsdato (eksempelvis række 2886 og 2887 med navnet Jørgen Jessen), vil jeg altså ikke vurdere disse som dupletter, medmindre det helt åbenlyst er tilfældet.
Det er altså muligt, at nogle dupletter på grund af denne retningslinje vil slippe igennem mit net, men når man arbejder med et datasæt med flere tusinde rækker, så er min vurdering, at der helt naturligt vil være sammentræf, hvor kun enkelte oplysninger er forskellige, selvom det drejer sig om forskellige personer. Her vælger jeg altså et forsigtighedsprincip, hvor jeg altså ikke dømmer rækker til at være dupletter, hvis der bare er enkelte væsentlige oplysninger, som taler imod.
Jeg laver en ny række med navnet “Afdødes fulde navn” ved hjælp af “Add column based on this column…” på kolonne “Afdødes navn_Fornavn (e )”. Jeg bruger følgende formel: “cells[“Afdødes navn_Fornavn (e )”].value + ” ” + cells[“Afdødes navn_Efternavn”].value”
For at tjekke for duplicates laver jeg sammensatte kolonner (funktionen kaldes også concacenate), som jeg laver en text facet på. Jeg noterer detaljeret mine rettelser nedenfor under overskriften “Log over rensning af dupletter”. I denne overordnede log skriver jeg kun mine overordnede handlinger.
Jeg laver først en ny række “Afdødes fulde navn+Dødsdato” ved hjælp af “Add column based on this column…” på kolonnen “Afdødes navn_Fornavn (e )”. Jeg bruger følgende formel: “cells[“Afdødes navn_Fornavn (e )”].value + ” ” + cells[“Afdødes navn_Efternavn”].value + ” ” + cells[“Dødsdato”].value”
Jeg sorterer efter count på rækken “Afdødes fulde navn+Dødsdato”. Jeg gennemgår alle, som har mere end én for at se, om de kunne være duplicates. Jeg noterer, hvis det er tilfældet.
For at holde styr på dupletter uden at slette rækker, så opretter jeg en ny kolonne, som hedder Duplet (0/1/række). Heri bruger jeg følgende system. “Blank/0” = Ingen opdagede dupletter. “1” = Rækken er en duplet, som er underordnet en anden (skal fjernes fra analyse). Række nr. X (tal) = Rækken er duplet, som er overordnet en anden række (X) og skal derfor inkluderes i analyse. Med dette system kan jeg nemt fjerne alle rækker, der har værdien “1”, når jeg skal lave analyse uden dupletter.
Jeg laver ny kolonne: “Afdødes fulde navn+Fødsels-dato” ved hjælp af “Add column based on this column…” på kolonne “”Afdødes navn_Fornavn (e )””Jeg bruger følgende formel: “cells[“Afdødes navn_Fornavn (e )”].value + ” ” + cells[“Afdødes navn_Efternavn”].value + ” ” + cells[“Fødsels-dato”].value”
Jeg laver en text facet og sorterer efter count på rækken “Afdødes fulde navn+Fødsels-dato”. Jeg gennemgår alle værdier, som har mere end én række for at se, om der kunne være dupletter. Jeg noterer under overskriften “Log over rensning af dupletter” nedenfor, hvis det er tilfældet, eller der er andre væsentlige ting at notere. Jeg noterer ikke, hvis der ikke er mistanke om dupletter. Det samme gælder for det følgende.
Jeg laver en ny kolonne: “Afdødes fulde navn+Alder ved død” ved hjælp af “Add column based on this column…” på kolonne “”Afdødes navn_Fornavn (e )””. Jeg bruger følgende formel: “cells[“Afdødes navn_Fornavn (e )”].value + ” ” + cells[“Afdødes navn_Efternavn”].value + ” ” + cells[“Alder ved død”].value”. Jeg sorterer efter count på rækken “Afdødes fulde navn+Alder ved død”. Jeg gennemgår alle værdier, som gælder for mere mere end én række for at se, om de kunne være duplicates. Jeg noterer, hvis det er tilfældet. Jeg har hurtigt skimmet stikprøver i denne søgning, og jeg vurderer, at den ikke giver super meget mening, da der er så mange blanks fra Alder ved død. Jeg går ikke i dybden med denne.
Jeg laver en ny kolonne: “Afdødes fulde navn+Fødested_Fødested” ved hjælp af “Add column based on this column…” på kolonne “”Afdødes navn_Fornavn (e )””Jeg bruger følgende formel: “cells[“Afdødes navn_Fornavn (e )”].value + ” ” + cells[“Afdødes navn_Efternavn”].value + ” ” + cells[“Fødested_Fødested”].value”. Jeg sorterer efter count på rækken “Afdødes fulde navn+Fødested_Fødested”. Jeg gennemgår alle værdier, som har mere end én række for at se, om der kunne være dupletter. Jeg noterer under overskriften “Log over rensning af dupletter” nedenfor, hvis det er tilfældet, eller der er andre væsentlige ting at notere.
Jeg laver en ny kolonne “Afdødes fulde navn+Dødssted_Dødssted” ved hjælp af “Add column based on this column…” på kolonne “”Afdødes navn_Fornavn (e )””. Jeg bruger følgende formel: “cells[“Afdødes navn_Fornavn (e )”].value + ” ” + cells[“Afdødes navn_Efternavn”].value + ” ” + cells[“Dødssted_Dødssted”].value”. Jeg gennemgår alle værdier, som har mere end én række for at se, om der kunne være dupletter. Jeg noterer under overskriften “Log over rensning af dupletter” nedenfor, hvis det er tilfældet, eller der andre væsentlige ting at notere.
Jeg flytter alle de oprettede kolonner i forbindelse med tjek for dupletter helt til højre i arket (bortset fra Afdødes fulde navn).
Jeg opdager, at ovenstående tjek af dupletter er sket uden at have trimmet for whitespace eller ensrettet små og store bogstaver og lignende i de oprindelige kolonner. Dette kan betyde, at jeg har misset nogle dupletter. Derfor vil jeg rette op på dette.
Jeg trimmer for whitespaces og laver alle bogstaver uppercase i kolonnen “Afdødes fulde navn”. Jeg laver ikke disse rettelser i de to originale kolonner med fornavn og efternavn, da jeg måske gerne på et tidspunkt vil bruge dem til at lave en lang liste med navnene. Når jeg eksempelvis begynder at rette lower og uppercase, så mister man korrekte stavemåder som eksempelvis “von” med lille “v”. Jeg bruger følgende funktioner på kolonnen “Afdødes fulde navn”.
“Edit Cells”>“Common Transforms”> “Trim leading and trailing whitespaces” = (“Text transform on 13 cells in column Afdødes fulde navn: value.trim()”.
“Edit Cells” > “Common Transforms” > “Collapse consecutive Whitespaces” = Text transform on 104 cells in column Afdødes fulde navn: value.replace(/\s+/,’ ‘).
“Edit Cells” >“Common Transforms” > “To uppercase” = Text transform on 6568 cells in column Afdødes fulde navn: value.toUppercase().
Jeg laver samme operationer på kolonnerne “Afdødes fulde navn+Dødssted_Dødssted” og “Afdødes fulde navn+Fødested_Fødested”. Se følgende punkter.
“Afdødes fulde navn+Fødested_Fødested”: “Edit Cells”>“Common Transforms” >“Trim leading and trailing whitespaces” = “Text transform on 36 cells in column Afdødes fulde navn+Fødested_Fødested: value.trim()”
“Afdødes fulde navn+Fødested_Fødested”: “Edit Cells” > “Common Transforms” > “Collapse consecutive Whitespaces” = Text transform on 124 cells in column Afdødes fulde navn+Fødested_Fødested: value.replace(/\s+/,’ ‘)
“Afdødes fulde navn+Fødested_Fødested”: “Edit Cells” > “Common Transforms” > “To uppercase” = Text transform on 6209 cells in column Afdødes fulde navn+Fødested_Fødested: value.toUppercase()
“Afdødes fulde navn+Dødssted_Dødssted”: “Edit Cells” > “Common Transforms” > “Trim leading and trailing whitespaces” = Text transform on 25 cells in column Afdødes fulde navn+Dødssted_Dødssted: value.trim()
“Afdødes fulde navn+Dødssted_Dødssted”: “Edit Cells” > “Common Transforms” > “Collapse consecutive Whitespaces” = Text transform on 105 cells in column Afdødes fulde navn+Dødssted_Dødssted: value.replace(/\s+/,’ ‘)
“Afdødes fulde navn+Dødssted_Dødssted”: “Edit Cells” > “Common Transforms” > “To uppercase” =Text transform on 5757 cells in column Afdødes fulde navn+Dødssted_Dødssted: value.toUppercase()
Jeg tjekker de to kolonner “Afdødes fulde navn+Dødssted_Dødssted” og “Afdødes fulde navn+Fødested_Fødested” for dupletter, men jeg noterer kun, hvis jeg finder noget, jeg ikke har fundet før. Se under overskriften “Log over rensning af dupletter” nedenfor.
Jeg laver ny kolonne “Afdødes fulde navn+Fødsels-dato_anden omgang” ved hjælp af “Add column based on this column…” på kolonne “Afdødes fulde navn”. Jeg bruger følgende formel: “cells[“Afdødes fulde navn”].value + ” ” + cells[“Fødsels-dato”].value”. Jeg flytter kolonnen helt til højre i datasættet.
Jeg sorterer efter count på rækken “Afdødes fulde navn+Fødsels-dato_anden omgang”. Jeg gennemgår alle værdier, som har mere end én række for at se, om de kunne være dupletter. Jeg noterer efter samme praksis som ovenfor, hvis det er tilfældet.
Jeg laver ny kolonne “Afdødes fulde navn+Dødsdato_anden omgang” ved hjælp af “Add column based on this column…” på kolonne “”Afdødes fulde navn””. Jeg bruger følgende formel: “cells[“Afdødes fulde navn”].value + ” ” + cells[“Dødsdato”].value”. Jeg flytter kolonnen helt til enden af datasættet.
Jeg sorterer efter count på kolonnen “Afdødes fulde navn+Dødsdato_anden omgang”. Jeg gennemgår alle værdier, som har mere end én række for at se, om de kunne være dupletter efter samme praksis som ovenfor. Jeg noterer, hvis det er tilfældet.
Med samme teknik som før laver jeg en ny kolonne, hvor jeg sammenkæder Fødsels-dato + Dødsdato. Jeg tjekker igennem ligesom ved de foregående punkter og noterer, hvis jeg finder dupletter.
Jeg laver nu forskellige clustering teknikker på kolonnen Afdødes fulde navn og tjekker om eventuelle clusters kan dække over de samme personer. Ligesom før noterer jeg dupletter.

Klargøring af fødselsdato og dødsdato

Da det har vist sig problematisk at arbejde med datasættes datoer, vil jeg gerne opdele kolonnerne med oplysninger om dødsdato og fødselsdato i adskilte kolonner for måned, dato og år.
Jeg starter med at ordne kolonnerne med dødsdag. Jeg går tilbage og arbejder i mit seneste Excel-ark. Da jeg beholder samme antal rækker (og altså ikke sletter eller tilføjer rækker) i mit OpenRefine-projekt, kan jeg senere copy&paste de følgende nye kolonner ind i et fremtidigt eksporteret Excel-ark fra OpenRefine. Jeg har valgt at gøre det på denne måde, da jeg gerne ville beholde de nævnte datoer så originale som muligt, inden jeg splittede dem op i år, måned, dato – og at jeg først efter mange rettelser i OpenRefine opdagede problematikken.
Jeg laver en kopi af det seneste Excel-dokument og kalder det “180101_cleaning_12_enkelt sheet_slice af datoer”.
Jeg sætter track changes på.
Jeg laver fire ny, tomme kolonner til venstre for kolonnen “Døds-årsag”.
Jeg kopierer kolonnen “Dødsdato” til den første nye, tomme række og kalder den “Dødsdato_kopi af original kolonne”.
Jeg slår track changes fra.
Jeg laver pivot table i et ark med navnet “180101_cleaning før datoslice”.
Jeg laver pivot table, så jeg kan se de forskellige slags indtastninger i rækken “Dødsdato_kopi af original kolonne”. Jeg gennemgår alle forskellige indtastninger for at se, om kolonnen er egnet til slice. Følgende værdier vil ikke fungere i slice (jeg retter dem bagefter): “1914-1918”, “1914-1919”, “1915 eller 1916”, “før 1916”, “ikke oplyst”.
Da jeg gerne vil lave “-” om til “/” for at bruge det som afgrænser i en “tekst til kolonne”-operation, men gerne vil beholde de ovennævnte værdier, laver jeg følgende “søg og erstat”-operationer. Jeg retter lige nu ikke de nævnte værdier, da de hurtigt kan fikses i OpenRefine. “1914-1918” => “1914 til 1918” (9 forekomster). “1914-1919” => “1914 til 1919” (14 forekomster).
Jeg laver søg og erstat på kolonnen “Dødsdato_kopi af original kolonne” for at lave “-” om til “/” (400 forekomster).
Jeg kopierer hele “Dødsdato_kopi af original kolonne” over i en ny kolonne til højre, som jeg kalder “Dødsdato_kopi af original kolonne_2”.
Jeg ændrer navnet af “Dødsdato_kopi af original kolonne” til “Dødsdato_kopi af original kolonne rettet inden datoslice”.
Jeg bruger “Tekst til kolonner” på kolonnen “Dødsdato_kopi af original kolonne_2”. Jeg bruger “afgrænset” og vælger “/” som afgrænser. Kolonnedataformat: “tekst”.
Jeg ændrer navnene på de tre nye kolonner til “Dødsdag”, “Dødsmåned” og “Dødsår”.
Jeg bruger pivot tables til at tjekke om der er værdier, som ikke burde være i de tre kolonner “Dødsdag”, “Dødsmåned” og “Dødsår”.
Jeg laver stikprøve ned igennem arket for at se om dag, måned, år i de nye kolonner passer med den oprindelige Dødsdato.
Jeg lukker Excel ned og omdøber regnearksfilen “180101_cleaning_12_enkelt sheet_slice af datoer” til “180101_cleaning_12_enkelt sheet_slice af dødsdatoer”
Jeg venter med at importere til OpenRefine, til jeg lige har regnet ud, hvordan jeg bedst løser det.
Jeg laver kopi af “180101_cleaning_12_enkelt sheet_slice af dødsdatoer” og kalder den ““180101_cleaning_13_enkelt sheet_slice af fødselsdatoer””
Jeg laver en pivot table med navnet “180101_cleaning før datoslice” og skimmer alle de forskellige slags værdier i kolonnen “Fødsels-dato” for at se, om jeg kan slice dem med “tekst til kolonne”. Umiddelbart ser det ud til, at jeg kan det, hvis jeg ligesom overfor erstatter “-” med “/”. Jeg noterer, at der findes en dato “15/06/2890”. År 2890 kan naturligvis ikke passe. Jeg vurderer, at det må være en trykfejl. Ligeledes må “24/02/1918” være en fejl. Men jeg laver ordentligt cleaning senere og lader derfor værdierne stå, men noterer, at de skal rettes.
Jeg laver fire nye kolonner til venstre for “Fødested_Fødested”.
Jeg kopierer kolonnen “Fødsels-dato” til den første nye tomme række og kalder den “Fødsels-dato_kopi af original kolonne rettet inden datoslice”.
Jeg laver søg og erstat på kolonnen “Fødsels-dato_kopi af original kolonne rettet inden datoslice” for at lave “-” om til “/” (11.999 forekomster). Jeg retter “/” tilbage til “-” i kolonnens titel.
Jeg kopierer hele “Fødsels-dato_kopi af original kolonne rettet inden datoslice” over i en ny kolonne til højre, som jeg kalder “Fødsels-dato_kopi af original kolonne rettet inden datoslice_2”.
Jeg bruger “Tekst til kolonner” på kolonnen “Fødsels-dato_kopi af original kolonne rettet inden datoslice_2”. Jeg bruger “afgrænset” og vælger “/” som afgrænser. Kolonnedataformat: tekst.
Jeg ændrer navnene på de tre nye kolonner til “Fødselsdag”, “Fødselsmåned” og “Fødselsår”.
Jeg bruger pivot tables til at tjekke, om der er værdier, som ikke burde være i de nye tre kolonner.
Jeg laver stikprøve ned igennem arket for at se om dag, måned, år i de nye kolonner passer med værdierne i den oprindelige “Fødsels-dato”-kolonne. Jeg finder ingen fejl.
Jeg gemmer og lukker Excel ned.

Stikprøver i datasættet for at vurdere datakvalitet

Jeg starter med at lave stikprøver i databasens kilder for at vurdere datakvaliteten på dette punkt. Nu arbejder jeg igen i OpenRefine.
Ifølge databasens læsevejledning er de lokale sognes kirkebøger brugt som kilde. Disse findes digitaliseret på sa.dk. Så jeg laver stikprøver i dem. Jeg vælger at tjekke kirkebøgerne for oplysninger om afdøde. I databasen angives denne kilde som “KB-D” (Kirkebog, døde).
Ved hjælp af text facets sorterer jeg i Open Refine efter “KB-D” i kolonnen “Kilde”. Jeg vælger tilfældigt tre rækker, som jeg gennemgår i det følgende.
Jeg kigger på række 63. Bopæls-sogn: Løgumkloster. Død 1918-09-01. Navn: Christian Andersen.
Jeg søger efter ovenstående oplysninger herinde: https://www.sa.dk/ao-soegesider/da/geo/geo-collection/47 (Kirkebøger, Sønderjylland).
Jeg finder Christian Anders død 1. september 1918 her:
https://www.sa.dk/ao-soegesider/da/billedviser?bsid=202015#202015,38296614. Information om militærforhold, dødsdato, og mere passer med databasen.
Række 316. I kolonnen “Indtasters bemærkninger…” står: “Død indført i Gråsten KB og mindesten som ”Hermann Becker”. Dødsdato: 1916-09-20. Navn: Johann Hermann Becker.
Johann Hermann Becker er fundet i Gråsten Sogns kirkebog her: https://www.sa.dk/ao-soegesider/da/billedviser?bsid=202015#202015,38296614. Det er svært at tyde teksten men det ser ud til følgende: Navn passer. Fødselsdato passer. Dødsdato passer. Måske passer militærrang også.
Række 146. Emil Andresen. Bopælssogn: Ubjerg. Fødselsdato 09-10-1883. Dødsdato 1915-05-16. Jeg finder indtastningen her: https://www.sa.dk/ao-soegesider/da/billedviser?bsid=202789#202789,38448502. Det er meget svært at tyde, men det ser ud til at navn, fødselsdato og dødsdato passer.
Ifølge vejledningen til databasen er “Døds-biregister, personregister” (DBR) brugt som kilde. Jeg går ud fra, at dette kan findes i kilden “Personregistre, Sønderjylland” på denne side: https://www.sa.dk/ao-soegesider/da/collection/theme/5
Jeg laver text facet, sorterer efter “DBR” og vælger tre rækker, som jeg tjekker i kilderne i det følgende.
Række 2. Christopher Abild. Bopælssogn: Møgeltønder. Fødselsdato: 09-05-1883. Dødsdato: 1915-07-08. Kildens stednavn: Møgeltønder. År og nr. for indførslen: 1916-001
Jeg tror, jeg har fundet ham Christopher Abild her, men det er meget svært at tyde (årstal er eksempelvis skrevet med bogstaver i stedet for tal): https://www.sa.dk/ao-soegesider/da/billedviser?bsid=78076#78076,13449589. Følgende passer (i hvert fald): Alder ved død, navn, militærrang, fødested, dødsdato. Jeg kan ikke umiddelbart finde fødselsdato.
Række 44. Navn: Anders Bertelsen Andersen. Alder ved død: 21. Bopæl: Halk. Fødselsdato: 14-03-1897. Fødested: Fjelstrup. Dødsdato: 1918-03-28. Kildens stednavn: Øsby. År og nr. for indførslen: 1918-025.
Jeg tror, jeg har fundet Anders Bertelsen Andersen her: https://www.sa.dk/ao-soegesider/da/billedviser?bsid=36836#36836,5149210. Følgende ser ud til at passe, men det er meget svært at tyde. Navn, alder ved død, bopæl, fødested og dødssted. Dødsdato kan ikke rigtigt tydes (men det ligner den korrekte dato).
Række 4578. Kildens stednavn: Christiansfeld. År og nr. for indførslen: 1916-038. Navn: Peter Christian Nissen. Bopæl: Tyrstrup. Fødselsdato: 28-05-1877. Alder ved død: 39. Fødested: Hoptrup. Dødssted Riga. Dødsdato: 1916-07-16.
Jeg tror, jeg har fundet Peter Christian Nissen her: https://www.sa.dk/ao-soegesider/da/billedviser?bsid=36200#36200,5039630. Følgende ser ud til at passe, men det er meget svært at tyde: Regiments nr., navn, alder ved død, bopæl, fødested, dødssted. Dødsdato kan ikke rigtigt tydes (men det ligner den korrekte dato).
Ifølge læsevejledning til databasen er mindesten (MS) også brugt som kilde. Jeg sorterer efter disse via text facet og udvælger tre.
Række 5665. Navn: Paul Schultz. Dødsdato: 1915-08-30. Jeg har fundet mindestenen med hans navn her: http://denstorekrig1914-1918.dk/soenderjyder-oversigt/soenderjyder-m/menzer-oscar-bruno-1882-1916/. Navn og dødssted passer.
Række 1155. Navn: Martin Detlef Damm. Dødsdato: 1914-12-08. Jeg har fundet hans mindesten her: http://denstorekrig1914-1918.dk/soenderjyder-oversigt/soenderjyder-d/damm-martin-detlef-1893-1914/. Følgende passer: Dødsdato, navn (uden mellemnavn) og fødested.
Række 1494. Navn: Fritz Carl Friedrich Friedrichsen. Dødsdato: 1916-12-22. Mindesten er fundet her: http://denstorekrig1914-1918.dk/soenderjyder-oversigt/soenderjyder-f/friedrichsen-fritz-carl-friedrich-1893-1916/. Kun navnet findes på mindestenen. Ifølge denne liste, som tilsyneladende er navnene med info på Marselisborg-monumentet, er han noteret: https://www.bryld.dk/filer/MarsMon.pdf. Følgende passer med databasen: navn (ikke mellemnavne), dødsdato, dødssted, fødselsdato, fødested.

Tjek af dupletter (anden omgang)

For at tjekke for dupletter laver jeg en ny kolonne hvor jeg sammenkæder Fødsels-dato og Dødsdato. Jeg kalder kolonnen “Fødsels-dato + Dødsdato”. Jeg sorterer på “count” i en text facet og gennemgår de værdier, som gælder for mere end én række for at se, om de skulle være dupletter. Jeg noterer under overskriften “Log over rensning af dupletter” nedenfor, hvor det er tilfældet.
Jeg laver ny kolonne “Kasseret (0/1)”. Her noterer jeg “1”, hvis en række skal fjernes i en analyse – eksempelvis i tilfælde af en duplet. Alle rækker får sat “0” som standard værdi.
Jeg flytter kolonnen “Duplet (0/1/række)” til venstre, så den står ved siden af “Kasseret (0/1)”
Jeg tilføjer “1” i “Kasseret (0/1)” ved rækken 4874, som er duplet.
Jeg laver alle de mulige clustering-metoder på kolonne “Afdødes fulde navn” og tjekker de forskellige clusters for dupletter. Jeg noterer under overskriften “Log over rensning af dupletter” nedenfor, hvor det er tilfældet.

Tjek efter “beskidt data”

For at spotte “beskidt data” går jeg nu igang med at gennemse de forskellige kolonner efter outliers og ekstreme/mistænkelige værdier, som skal undersøges. Jeg bruger OpenRefine. Og jeg noterer under “Tjek af ekstreme værdier, blanke værdier og lignende i alle kolonner”, hvilke resultater som er væsentlige. Jeg noterer også BLANK values, som kan bruges til at vurdere datakvaliteten. Jeg analyserer kun på de rækker, som er enten relevante for at vurdere datasættets kvalitet, eller som jeg skal bruge i min analyse.
Jeg flytter kolonnen Fødsels-dato længst til højre i datasættet, da denne skal bevares som original.

Datarensning af Dødssted_dødsland: Tysk Østafrika

Da jeg får adgang til en optagelse med beretninger fra en sønderjyde i Tysk Østafrika, går jeg igang med at rense data for specifikt at finde soldater dræbt i Tysk Østafrika.
Jeg har først gennemgået alle de steder, som var nævnt i “Dødssted_dødsted” i de rækker, som allerede har fået Tysk Østafrika som land i mit datasæt, for at se om flere omkomne var registreret med samme byer og uden dødsland. Det var ikke tilfældet.
Jeg bruger de forskellige clustering metoder på Dødssted_Dødssted for at se om nogle forslag til stavefejl kan være steder i Tysk Østafrika. Ved de clustering-metoder, som gav mange resultater, har jeg blot brugt ctrl+f for at finde de fem byer, jeg allerede kender som dødssteder i Tysk Østafrika. Det gav ingen resultater.
Jeg laver en kopi af mit seneste Excel-dokument og kalder den “180207_cleaning_15_enkelt sheet_søgning Tysk-Østafrika”. I dette Excel-dokument laver jeg et nyt ark: “Stednavne for Tysk-Østafrika”.
Nu finder jeg andre bynavne og stednavne i Tysk Østafrika ved at kigge på kilder som eksempelvis Wikipedia-artikler på forskellige sprog for den gamle koloni. Jeg noterer alle stednavne, jeg finder, i hver sin række i arket “Stednavne for Tysk-Østafrika” i en kolonne med navnet “Stednavn”.
Jeg laver tre yderligere kolonner: “Kilde”, “Stednavn uden mellemrum”, “Søgning”, “Søgning (ja/nej)”. I Kilde noterer jeg, hvor stednavnet af fundet med link. I Stednavn uden mellemrum renser jeg for egne indtastningsfejl ift. mellemrum ved hjælp af formularen “=FJERN.OVERFLØDIGE.BLANKE(A2)”. I Søgning skriver jeg formlen “=TÆL.HVIS(Cleaning_2!$A$1:$AQ$6569;”*”&C2&”*”)”. I Søgning (ja/nej) skriver jeg formlen: “=TÆL.HVIS(Cleaning_2!$A$1:$AQ$6569;”*”&C2&”*”) > 0”. Jeg gentager formularen for alle række med stednavne. Bemærk: Jeg har brugt følgende guide: https://exceljet.net/formula/value-exists-in-a-range
Jeg laver autofilter og sorterer efter værdien “Sand” i kolonnen “Søgning (ja/nej)”. Dermed får jeg alle de værdier, som findes i mit datasæt. Dem søger jeg på manuelt i arket “cleaning_2” og tjekker rækkernes oplysninger for at finde eventuelle omkomne i Tysk Østafrika. Jeg finder ingen, som ser ud til at være døde i Tysk-Østafrika.
Fem personer er efter min datacleaning registreret som døde i Tysk Østafrika. For at styrke min datakvalitet når jeg har “zoomet” så meget ind ved at kigge på kun fem personer, laver jeg stikprøver på deres oplysninger i kilderne. For tre personer kan jeg tjekke dødsbiregistrerne. Èn kilde kommer fra Invalidenævnets Efterladtesager, Rigsarkivet Aabenraa, som ikke er digitaliserede – den kilde kan jeg ikke tjekke. En kilde er en mindesten, som jeg godt kan tjekke. Det gør jeg, og jeg bruger som udgangspunkt kun de oplysninger, som jeg umiddelbart kan bekræfte.
Da Excel-dokumentet 180207_cleaning_15_enkelt sheet_søgning Tysk-Østafrika tilsyneladende er blevet langsom af at have det ovenstående søgeark liggende, laver jeg en ny kopi og sletter i den nye kopi arket “Stednavne for Tysk-Østafrika”. Den nye kopi hedder: “180212_cleaning_16”.

Diverse smårettelser ved endelig gennemgang af løse ender

I OpenRefine: I kolonnen “Duplet (0/1/række)” retter jeg alle med værdien “1” til “Duplet”. Indtil nu har tallet 1 nemlig signaleret duplet, selvom kolonnen også har værdierne X, som henviser til bestemte rækker. Derfor vil “1” kunne misforstås som en henvisning til række 1. Jeg ændrer også navnet på kolonnen fra “Duplet (0/1/række)” til “Duplet (0/Duplet/Række X)”

Sammenkobling af opdeling af dødsdato og fødselsdato i Excel og ændringerne foretaget i OpenRefine

Jeg startede min proces med at rense dette datasæt i OpenRefine. Undervejs fandt jeg ud af, at OpenRefine ikke håndterede datoerne særligt godt. Der var blandt andet en del fejl, og mulighederne for at bearbejde de data var meget begrænsede. Derfor har jeg, som det fremgår af loggen, opdelt fødselsdatoerne og dødsdatoerne i mit Excel-ark. Og jeg har i øvrigt sørget for at overføre eventuelle rettelse i netop disse kolonner fra OpenRefine til Excel.
Da jeg ikke har slettet eller flyttet rækker, er rækkefølgen og placeringen af rækker i det redigerede OpenRefine-datasæt og det redigerede Excel-ark den samme, og jeg vurderer derfor, at jeg uden problemer kan eksportere mit OpenRefine-projekt som en Excel-fil og så simpelthen copy-paste de nye kolonner med adskilte fødselsdatoer og dødsdatoer ind i den nye Excel-ark. Så skal de nye adskilte kolonner passe med de oprindelige rækker. Jeg laver stikprøver i det nye datasæt. Denne proces går jeg igang med nu.
Først eksporterer jeg mit OpenRefine-projekt som en Excel-fil (.xlsx). Jeg laver kopi af filen og kalder den 2018_02_14_sammenkoblet datasæt_version 1.
I Excel-arket “2018_02_14_sammenkoblet datasæt_version 1” fryser jeg første række. Til venstre for kolonnen “Fødested_Fødested” indsætter jeg fire tomme rækker.
Jeg laver en kopi af Excel-arket med opsplittede datoer og kalder det “180214_cleaning_16”. I “180214_cleaning_16” kopierer jeg nu kolonnen “Fødsels-dato_til rettelser (ny kolonne)” og sætter den ind på den første nye, tomme kolonne i Excel-arket “2018_02_14_sammenkoblet datasæt_version 1”. Denne kolonne skal bruges som reference for at sikre mig, at der ikke er sket fejl i datoerne ved behandlingen i OpenRefine. Jeg bruger funktionen “Indsæt speciel…” og vælger “Værdier”, så jeg ikke får formattering og lignende med.
I “180214_cleaning_16” kopierer jeg nu de tre kolonner “Fødselsdag”, “Fødselsmåned”, “Fødselsår”. Jeg sætter dem ind i de tre tilbageværende nye, tomme kolonner i Excel-arket “2018_02_14_sammenkoblet datasæt_version 1”. Jeg bruger funktionen “Indsæt speciel…” og vælger “Værdier”, så jeg ikke får formattering og lignende med. Jeg konverterer alle disse tre kolonner til tal ved hjælp af funktionen “Tekst til kolonner”: Jeg markerer én kolonne, trykker på knappen “Tekst til kolonner” og trykker “Udfør”. Det gentager jeg for de to sidste kolonner.
I Excel-arket “2018_02_14_sammenkoblet datasæt_version 1” laver jeg nu fire nye, tommer kolonner til venstre for kolonnen Døds-årsag. Jeg går nu tilbage i Excel-arket “180214_cleaning_16” og kopierer rækken “Dødsdato_kopi af original kolonne rettet inden datoslice”. Denne kolonne kopieres ind i Excel-arket “2018_02_14_sammenkoblet datasæt_version 1” i den første nye, tomme kolonner fra venstre. Jeg bruger funktionen “Indsæt speciel…” og vælger “Værdier”, så jeg ikke får formattering og lignende med. Denne kolonne skal bruges som reference for at sikre mig, at der ikke er sket fejl i datoerne ved behandlingen i OpenRefine.
Jeg går nu tilbage i Excel-arket “180214_cleaning_16” og kopierer rækkerne “Dødsdag”, “Dødsmåned” og “Dødsår”. Disse tre kolonner kopieres ind i Excel-arket “2018_02_14_sammenkoblet datasæt_version 1” i de tre tilbageværende nye, tomme kolonner. Jeg bruger funktionen “Indsæt speciel…” og vælger “Værdier”, så jeg ikke får formattering og lignende med. Jeg laver formatet på de tre kolonner “Dødsdag”, “Dødsmåned” og “Dødsår” om til “standard” og konverterer de tre kolonner til tal ved hjælp af funktionen “Tekst til kolonner”: Jeg markerer én kolonne, trykker på knappen “Tekst til kolonner” og trykker “Udfør”. Det gentager jeg for de to sidste kolonner.
Jeg laver kopi af “2018_02_14_sammenkoblet datasæt_version 1.xlsx” og kalder filen “2018_02_15_sammenkoblet datasæt_version 2.xlsx”.
Jeg laver nu stikprøver i de nye kolonner for fødselsdag og dødsdato og for at se, om de nye kolonner passer med de gamle kolonner. På denne måde sandsynliggør jeg også, at der ikke er sket andre fejl ved eksempelvis forskellige formattering af datoerne, da de forskellige kolonner har haft forskellige rejser fra den originale data. Jeg finder ingen fejl.
Jeg sætter Filtrer på.
Jeg åbner mit OpenRefine-projekt og sammenligner fem tilfældige rækker med det nye Excel-dokument, for at se om der skulle være nogle fejl ved eksporten. Jeg finder ingen fejl.

I det følgende arbejder jeg med analyse af antallet af døde per år

Jeg laver nu en pivottabel i et ark kaldet “Døde per år”.
Jeg omdøber arket med datasættet til “Datasæt renset af Søren Kjær”.
Rækkerne Fødselsår, Fødselsmåned, Fødselsdag får ændret formattering til standard.
I kolonnen Dødsdag findes værdierne: “1914 til 1918”, “1914 til 1919”, “1915 eller 1916”, “før 1916” og “ikke oplyst”. Da disse værdier ikke findes i kolonnerne Dødsmåned og Dødsår, men er rare at have ved analyse af disse, filtrerer jeg Dødsdag efter disse værdier og kopiere værdierne til de to andre kolonner, hvor felterne i disse rækker alligevel står tomme.
Jeg opretter en ny pivottabel i et nyt ark, som jeg kalder “Pivottabel til eksperimenter”.
I pivottabellen i arket kaldet “Døde per år”: Jeg laver følgende indstillinger. Rækker: “Kasseret (0/1)” og “Dødsår”. Værdier: “Antal af dødsår” og “Antal af Ny_Oprindelig ID”. Jeg bruger også værdien “Antal af Ny_Oprindelig ID”, da “Antal af dødsår” ikke tæller tomme felter med. Disse tomme felter får jeg talt med, hvis jeg bruger “Antal af Ny_Oprindelig ID”, da jeg ved, at alle rækker har en unik værdi i dette felt.
Jeg sorterer alle rækker fra, som har værdien 1 i “Kasseret (0/1)”. Jeg laver et søjlediagram for at se data grafisk. Jeg kopierer alle værdierne i min pivottabel og sætter dem ind længere nede i arket under pivottabellen.
Under den kopierede data laver jeg nu en ren opstilling af data, sådan som jeg gerne vil udgive det. Jeg bruger rækkerne årstallene 1914 til 1921 samt rækken “Ikke oplyst eller upræcis tidsangivelse”, hvor jeg samler antallet af tomme rækker, rækker med “Ikke oplyst” samt de rækker, hvor tidsangivelsen dækker flere år. Jeg laver et søjlediagram af disse nye rækker.

I det følgende arbejder jeg med analyse af antallet af døde per måned

Jeg laver nu en pivottabel i et ark kaldet “Døde per måned”.
Jeg laver følgende indstillinger. Rækker: “Kasseret (0/1)”, “Dødsår” og “Dødsmåned”. Værdier: “Antal af Ny_Oprindelig ID”, “Antal af dødsår” og “Antal af Dødsmåned”.
Jeg laver kopi af Excel-arket og kalder det 2018_02_16_sammenkoblet datasæt_version 3.xlsx.
Da jeg har fundet ud af, at række 3730 ikke tjente i Det Tyske Kejserrige – men i stedet var soldat for USA, har jeg tilføjet “1” i kolonnen “Kasseret (0/1)”. Jeg har opdateret tallene på den baggrund i arket “Døde per år” og “Døde per måned”. Jeg tilføjer også “1” i samme kolonne i datasættet i OpenRefine. Jeg opdaterer mine tidligere analyser.
Jeg kopier dataen, som ikke har “1” ved “Kasseret (0/1)” fra pivottabellen og sætter det ind længere nede i arket.
Under den kopierede data laver jeg et nyt datasæt, som jeg renser og gør klar til den endelige udgivelse. Først laver jeg rækker med alle måneder i mit nye datasæt. De skrives måned, årstal – eksempelvis “Marts 1916”. Jeg medtager kun de måneder, hvor krigen foregik: Altså august 1914 til november 1918. Jeg inkluderer altså ikke de data, hvor dødsmåned er angivet til “0”. Inden jeg indtaster månedernes navne ændrer jeg cellernes format til “Tekst”.
Jeg laver en sum af alle månederne og markerer cellen “I alt”.
Jeg fratrækker “I alt” fra det totale antal personer i datasættet, som ikke er kasseret og kalder cellen “Ikke oplyst eller upræcis tidsangivelse”.
På baggrund af rækkerne med data per måned laver jeg nu både et søjle- og et kurvediagram.

I det følgende arbejder jeg på analyse af alder ved død

Jeg opretter en ny pivottabel i et ark kaldet “Alder ved død” med følgende indtastninger. Rækker: “Kasseret (0/1)”, “Alder ved død”. Værdier: “Antal af Ny_Oprindelig ID”, “Antal af Alder ved død”.
Jeg bemærker, at to rækker ser ud til at have værdien “ “ i “Alder ved død”. Jeg går tilbage i datasættet og fjerner mellemrummene i disse celler (række 2628 og 5576). Jeg opdaterer pivottabellen.
Jeg kopier dataen fra pivottabellen og sætter det ind længere nede i arket.
Under den kopierede data laver jeg et nyt datasæt, som jeg renser og gør klar til den endelige udgivelse. I den ene kolonne kopierer jeg alle mulige dødsaldre (som ikke kommer fra kasserede rækker). I kolonnen til højre sætter jeg teksten “ år” på alle dødsaldre. I den tredje kolonne kopiere jeg de korresponderende talværdier. Jeg laver et søjlediagram på baggrund af kolonne 2 og 3.
Jeg tæller sum sammen for antallet af døde med en angivet dødsalder.
Jeg udregner gennemsnit for kolonnen ved at tilføje “Gennemsnit af Alder ved død” til værdier i min pivottabel.
Jeg laver ny kopi af Excel-arket: 2018_02_17_sammenkoblet datasæt_version 4.xlsx
Ved hjælp af funktionen sum() udregner jeg, hvor mange der var henholdsvis 25 eller derunder og 26 eller derover.
Ved hjælp af funktionen median() finder jeg medianen af kolonnen.

I det følgende laver jeg analyse af døds- og fødselssted

Jeg laver en ny pivottabel i et ark kaldet “Døds- og fødselssted” med følgende indstillinger. Rækker: “Kasseret (0/1)”, “Bopæl_Bopæls-amt eller -stat”. Værdier: “Antal af Ny_Oprindelig ID”, “Antal af Bopæl_Bopæls-amt eller -stat”.
Jeg kopier dataen, som ikke har “1” ved “Kasseret (0/1)” ned under pivottabellen.
Jeg regner sammen, hvor mange som har haft bopæl i de fire sønderjyske amter.
Jeg ændrer nu indstillinger i pivottabellen ved at bytte “Bopæl_Bopæls-amt eller -stat” ud med “Fødested_Føde-amt eller -stat”.
Jeg kopierer dataen som ikke har 1 ved “Kasseret (0/1)” ned under pivottabellen.
Jeg regner sammen, hvor mange som er født i de fire sønderjyske amter.

Afsluttende arbejde

Jeg laver en ny kopi af Excel-arket og kaldet det “2018_02_21_sammenkoblet datasæt_version 5.xlsx”
Jeg laver endnu en kopi, som jeg kalder “2018_02_21_Datasæt bearbejdet af Søren Kjær.xlsx”. I dette Excel-ark sletter jeg alle andre ark end “Datasæt renset af Søren Kjær”, “Døde per år”, “Døde per måned”, “Alder ved død” og “Døds- og fødselssted”

Rettelser i OpenRefine i Dødssted_dødsland (detaljeret log)

I det følgende bruger jeg funktionen text facet i OpenRefine på kolonnen Dødssted_dødsland til at finde stavefejl, forskellige stavemåder og så videre. Nedenfor her skriver jeg mine rettelser.
Jeg finder Franktig (2). Det må være Frankrig, hvilke også bekræftes af dødsstederne. Jeg retter begge rækker (række 757 og 2991).
Jeg finder Macedonien (2). Må være Makedonien: Række 2167 har Dødssted_Dødssted: Orle (findes i Makedonien ifølge Google Maps). Række 6230, Dødssted_Dødssted: Tepavci (findes i Makedonien ifølge Google Maps). Jeg ændrer begge til Makedonien.
Jeg har fundet Nordfrankrig (1). Det er række 3218 med Dødssted_Dødssted: Henin-Lietard. Det ligger i Frankrig. Jeg ændrer til Frankrig. “Nordfrankrig” tilføjes til “Ny_Region/Område”.
Jeg har fundet “ Rusland” for række 389. Jeg har fjernet mellemrum og altså rettet til “Rusland”.
Jeg har fundet “Flandern” (1). Det er række 4474 med Dødsted_Dødssted: St. Eloi og Dødsdato: 1916-03-27T00:00:00Z. Jeg søger på nettet og finder ud af, at der har været et slag ved St. Eloi i Belgien på det tidspunkt. Jeg ændrer til Belgien og tilføjer “Flandern” til “Ny_Region/Område”.
Jeg finder “Hellevad” (1). Det er række 6043. Jeg søger på nettet og finder ud af, at Hellevad har ligget i området mellem 1864-grænsen og 1920-grænsen. Kilde: https://da.wikipedia.org/wiki/Hellevad. Jeg ændrer Dødssted_Dødsland til “Sønderjylland (Tyskland)”. Sønderjylland (Tyskland) er i øvrigt herefter brugt som Dødssted_Dødsland som betegnelsen for de områder, som ligger mellem de to nævnte grænsedragninger. “Ny_Region/Område” er ændret til “Sønderjylland (Tyskland)”.
Jeg finder Aabenraa (1). Det er række 1497 med Dødssted_Dødssted: Aabenraa. Dødssted_Dødsland: Aabenraa er derfor ændret til “Sønderjylland (Tyskland)”. “Ny_Region/Område” er ændret til “Sønderjylland (Tyskland)”
Jeg finder Hørup (1). Det er række 2828 med Dødssted_Dødssted: Høruphav. Jeg researcher og finder placering. Kilder: https://da.wikipedia.org/wiki/H%C3%B8rup og https://da.wikipedia.org/wiki/H%C3%B8ruphav. Dødssted_Dødsland: Aabenraa ændres derfor til “Sønderjylland (Tyskland)”. “Ny_Region/Område” er ændret til “Sønderjylland (Tyskland)”.
Jeg finder “Mjolden” (1). Det er række 3974 med Dødssted_Dødssted: Ottersbøl. Jeg finder placering ved at søge på nettet. Kilder: https://da.wikipedia.org/wiki/Mjolden_Sogn og https://de.wikipedia.org/wiki/Mjolden_Sogn samt https://map.krak.dk/s%C3%B8g/ottersb%C3%B8l. Dødssted_Dødsland: Mjolden er derfor ændret til “Sønderjylland (Tyskland)”. “Ny_Region/Område” er ændret til “Sønderjylland (Tyskland)”.
Jeg finder “Øster Løgum” (1). Det er række 1198 med Dødssted_Dødssted: Hovslund. Jeg finder placering ved at søge på nettet. Kilder: https://da.wikipedia.org/wiki/%C3%98ster_L%C3%B8gum og https://da.wikipedia.org/wiki/Hovslund_Stationsby. Dødssted_Dødsland: “Øster Løgum” er derfor ændret til “Sønderjylland (Tyskland)”. “Ny_Region/Område” er ændret til “Sønderjylland (Tyskland)”.
Jeg finder “Deutsch-Ost-Afrika” (1). Det er række 6417 med Dødssted_Dødssted: Malangoli. Jeg leder efter placering på nettet. Jeg har ikke kunne findet Malangoli nogen steder, men følgende viser, at Deutsch-Ost-Afrika må være “Tysk Østafrika”: https://da.wikipedia.org/wiki/Tysk_%C3%98stafrika og https://de.wikipedia.org/wiki/Deutsch-Ostafrika. Dødssted_Dødsland: “Deutsch-Ost-Afrika” er derfor ændret til “Tysk Østafrika”.
Jeg finder Dt.-Ostafrika (1). Det er række 5907 med Dødssted_Dødssted: Karonga. Jf. ovenstående må Dt.-Ostafrika være Tysk Østafrika. Dødssted_Dødsland: “Dt.-Ostafrika” er derfor ændret til “Tysk Østafrika”.
Jeg finder “Tysk-Østafrika” (2). Det er række 36 (Dødssted_Dødssted: Mgeta) og række 933 (Dødssted_Dødssted: Kiderengwa). Jeg retter til ovenstående korrekte stavemåde: Dødssted_Dødsland: “Tysk-Østafrika” er derfor ændret til “Tysk Østafrika” for begge rækker.
Jeg finder “Østafrika” (1). Det er række 2742 med Dødssted_Dødssted: Dar es Salam. Dødssted var hovedstad i Tysk Østafrika. Kilde: https://da.wikipedia.org/wiki/Tysk_%C3%98stafrika. Dødssted_Dødsland: “Østafrika” er derfor ændret til “Tysk Østafrika”.
Jeg finder “Alaska” (1). Det er række 100. Alaska tilhørte (også) USA dengang. Kilde: https://en.wikipedia.org/wiki/Territory_of_Alaska. Dødssted_Dødssted ændres fra blank til “Alaska”. Dødssted_Dødsland ændres fra “Alaska” til “USA”. “Ny_Region/Område” ændres fra blank til “Alaska”.
Jeg finder Amerika (1). Det er række 6452. Ifølge “Indtasters bemærkninger…” må der menes “USA” med “Amerika”. Derfor ændres Dødssted_Dødsland fra “Amerika” til “USA”.
Jeg finder Galizien (1). Det er række 3773 med Dødssted_Dødssted: Teofipolka. Jeg søger på nettet og finder placering. Kilder: https://en.wikipedia.org/wiki/Galicia_(Eastern_Europe), https://en.wikipedia.org/wiki/Kozova_Raion, https://de.wikipedia.org/wiki/Galizien#/media/File:Galicia_physical1914-de.png, https://de.wikipedia.org/wiki/Galizien og https://en.wikipedia.org/wiki/Galicia_(Eastern_Europe). Galizien var en del af Østrig i riget Østrig-Ungarn (https://en.wikipedia.org/wiki/Austria-Hungary). Derfor er Døddsted_Dødsland: Galizien ændret til Østrig (Galizien). “Ny_Region/Område” ændres til Galizien.
Jeg finder Hvide Rusland (1). Det er række 3344 med Dødssted_Dødssted: Baronowitochi. Hvide Rusland var en del af Rusland op til krigen (under krigen besat af Tyskland). Kilde: https://en.wikipedia.org/wiki/Belarus, https://en.wikipedia.org/wiki/History_of_Belarus og https://en.wikipedia.org/wiki/Russian_Empire. Ifølge kortet her ligger Minsk et godt stykke inde i Rusland i 1914: https://www.timemaps.com/history/russia-1914ad/. Byen Brest (som også indgår i datamaterialet) ligger meget vest for minsk og ser også ud til at være en del af Rusland på tidspunktet: https://en.wikipedia.org/wiki/Brest,_Belaru. Pga. ovenstående ændres Dødssted_Dødsland til “Rusland”. “Hvide Rusland” tilføjes til kolonnen “Ny_Region/Område”.
Jeg finder “Ost-Preussen” (1). Det er række 6335 med Dødssted_Dødssted: Buddern, Kreis Angerburg. Østpreussen var en del af Preussen i det Tyske Rige: “…landet var indtil 1918 en del af kongeriget Preussen.” Kilde: https://da.wikipedia.org/wiki/%C3%98stpreussen og https://da.wikipedia.org/wiki/Preussen (jeg har også tjekket flere kilder). Dødssted_Dødsland er derfor ændret til “Det Tyske Kejserrige“, og “Ny_Region/Område” er ændret til “Østpreussen”.
Jeg finder “Preussen” (1). Det er række 6513 med Dødssted_Dødssted: Königsberg. Königsberg er i dag Kaliningrad: https://da.wikipedia.org/wiki/Kaliningrad. Ifølge det her kort er det en del af Det Tyske Rige indtil 1918 (og en del af Østpreussen): https://en.wikipedia.org/wiki/German_Empire#/media/File:Deutsches_Reich_(1871-1918)-de.svg. Dødssted_Dødsland er derfor ændret til “Det Tyske Kejserrige“. “Ny_Region/Område” er ændret til “Østpreussen”.
Jeg finder “Schlesien” (1). Det er række 673 med Dødssted_Dødssted: Hirschberg. Ifølge det her kort er Schlesien en del af Det Tyske Rige: https://commons.wikimedia.org/wiki/File:Deutsches_Reich_(1871-1918)-de.svg. Ifølge det her link var Hirschberg en del af Det Tyske Rige som en del af Province of Silesia (Schlesien): https://en.wikipedia.org/wiki/Jelenia_G%C3%B3ra. Dødssted_Dødsland er derfor ændret til “Det Tyske Kejserrige“. “Ny_Region/Område” er ændret til “Schlesien”.
Jeg finder “Sibirien” (2). Det er række 882 (Dødssted_Dødssted: Skatowo) og række 3120 (Dødssted_Dødssted: Horozanka). Siberien er en del af Rusland. Kilde: https://en.wikipedia.org/wiki/Siberia og https://en.wikipedia.org/wiki/Russian_Empire. Dødssted_Dødsland er derfor ændret til “Rusland“ for begge rækker. “Ny_Region/Område” er ændret til “Sibirien” for begge rækker.
Jeg finder “Sibirien, Rusland” (1). Det er række 5827 med Dødssted_Dødssted: Krasnojarsk. Jeg researcher placering: https://en.wikipedia.org/wiki/Krasnoyarsk og https://da.wikipedia.org/wiki/Krasnojarsk. Dødssted_Dødsland er derfor ændret til “Rusland“. “Ny_Region/Område” er ændret til “Sibirien”.
I det følgende går jeg nu igang med at kigge på de 2.725 rækker, som ikke har noteret noget ved Dødsted_Dødsland. Det gør jeg ved at sortere på Dødsted_Dødsland: (blank) (2725) ved hjælp af en text facet. Herefter laver jeg også en text facet på Dødssted_Dødssted og retter følgende grupper.
Jeg finder Dødssted_Dødssted: “Sønderborg” (73). Det er følgende rækker: 30, 345, 513, 519, 595, 718, 744, 849, 910, 1021, 1469, 1472, 1569, 1951, 2163, 2206, 2233, 2270, 2408, 2491, 2514, 2529, 2597, 2935, 3217, 3273, 3313, 3328, 3331, 3365, 3370, 3416, 3560, 3675, 3687, 3691, 3699, 3720, 3721, 3982, 4091, 4155, 4179, 4224, 4272, 4300, 4506, 4811, 4822, 4947, 5084, 5306, 5314, 5371, 5377, 5398, 5425, 5438, 5500, 5550, 5620, 5866, 5884, 5935, 6036, 6233, 6343, 6383, 6421, 6472, 6538, 6546 og 6550. Sønderborg var en del af Det Tyske Rige, men mellem 1864-grænsen og 1920-grænsen. Kilder: http://www.visitsonderborg.dk/soenderborg-under-1-verdenskrig-gdk1085739 og https://da.wikipedia.org/wiki/S%C3%B8nderborg. Jeg har i øvrigt læst alle rækkers “Indtasters bemærkninger…” for at se, om der skulle være noget, som kunne forhindre, at alle rækker blev ændret til det samme. For alle rækker ændres Dødssted_Dødsland til “Sønderjylland (Tyskland)“ og “Ny_Region/Område” til “Sønderjylland (Tyskland)”.
Jeg finder Dødssted_Dødssted: “Haderslev” (40). Det er følgende rækker: 1192, 1214, 1257, 1299, 1314, 1363, 1728, 1993, 2295, 2297, 2298, 3094, 3270, 3323, 3415, 3423, 3692, 3985, 405, 407, 4127, 4340, 4469, 4583, 4637, 4691, 506, 5123, 516, 5395, 5626, 5829, 6220, 6331, 6360, 6409, 6425, 6517, 658 og 918. Haderslev var en del af Tyskland før 1920. Kilde: https://en.wikipedia.org/wiki/Haderslev og http://danmarkshistorien.dk/leksikon-og-kilder/vis/materiale/haderslev/?no_cache=1. Jeg har i øvrigt læst alle rækkers “Indtasters bemærkninger…” for at se, om der skulle være noget, som kunne forhindre, at alle rækker blev ændret til det samme. Ingen problemer, jeg har ændret alle rækker med følgende: Dødssted_Dødsland er ændret til “Sønderjylland (Tyskland)“ og “Ny_Region/Område” er ændret til “Sønderjylland (Tyskland)”.
Jeg finder Dødssted_Dødssted: “Aabenraa, Aabenraa sogn” (1). Det er række 676. Ifølge indtasters bemærkninger døde han i Aabenraa. Dødssted_Dødssted ændres til Aabenraa.
Jeg finder Dødssted_Dødssted: “Aabenraa” (32). Der drejer sig om følgende rækker: 1046, 1261, 1541, 159, 1592, 1980, 2252, 2291, 2300, 2352, 2378, 2859, 3314, 3389, 3529, 489, 5160, 5339, 5435, 545, 6303, 6367, 6381, 6393, 6471, 676, 714, 719, 762, 848, 86 og 905. Aabenraa var en del af Tyskland før 1920. Kilde: https://da.wikipedia.org/wiki/Aabenraa og https://en.wikipedia.org/wiki/Aabenraa. Jeg læser alle indtasters bemærkninger for alle rækker, for at se om jeg bare kan ændre alle på én gang. Det kan jeg, jeg har ændret følgende: Dødssted_Dødsland er ændret til “Sønderjylland (Tyskland)“, og “Ny_Region/Område” er ændret til “Sønderjylland (Tyskland)”
Jeg finder Dødssted_Dødssted: “Kiel” (16). Det er følgende rækker: 1988, 2366, 2487, 3182, 3822, 4295, 4950, 4964, 5953, 6340, 635, 6435, 6563, 659, 814, 850. Kiel var en del af Det Tyske Rige under Første Verdenskrig ifølge https://en.wikipedia.org/wiki/Kiel og https://de.wikipedia.org/wiki/Kiel. Jeg læser alle “indtasters bemærkninger” for alle disse rækker, for at se om jeg bare kan ændre alle på én gang. Det kan jeg, jeg har ændret følgende: Dødssted_Dødsland er ændret til “Det Tyske Kejserrige“.
Jeg finder Dødssted_Dødssted: “Tønder” (16). Det er følgende rækker: 1201, 1607, 2193, 2301, 3244, 3275, 3500, 3547, 3690, 3855, 4360, 5132, 6407, 6537, 805, 942. Tønder var en del af Tyskland før 1920 ifølge https://da.wikipedia.org/wiki/T%C3%B8nder og https://en.wikipedia.org/wiki/T%C3%B8nder. Jeg læser alle “Indtasters bemærkninger…” for hele denne blok, for at se om jeg bare kan ændre alle på én gang. Det kan jeg, jeg har ændret følgende: Dødssted_Dødsland er ændret til “Sønderjylland (Tyskland)“ og “Ny_Region/Område” er ændret til “Sønderjylland (Tyskland)”.
Jeg finder Dødssted_Dødssted: “Løgumkloster” (6). Det er følgende rækker: 1371, 1650, 3004, 3022, 6282 og 6336. Løgumkloster var en del af Tyskland før 1920 og blev så dansk. Kilder: https://da.wikipedia.org/wiki/L%C3%B8gumkloster og http://genforeningen.sonderborg-slot.dk/baggrund/resultatet/nye-graenser-nye-mindretal/. Jeg læser alle “Indtasters bemærkninger…” for hele denne blok, for at se om jeg bare kan ændre alle på én gang. Det kan jeg, jeg har ændret følgende: Dødssted_Dødsland er ændret til “Sønderjylland (Tyskland)“ og “Ny_Region/Område” er ændret til “Sønderjylland (Tyskland)”.
Jeg finder Dødssted_Dødssted: “Toftlund” (12). Det er følgende rækker: 1282, 1320, 1570, 1652, 2195, 2199, 228, 2641, 3533, 449, 5149 og 5257. Toftlund var en del af Tyskland før 1920 og blev så dansk. Se på kort her: https://da.wikipedia.org/wiki/Toftlund. Jeg læser alle “Indtasters bemærkninger…” for hele denne blok, for at se om jeg bare kan ændre alle på én gang. Det kan jeg, jeg har ændret følgende: Dødssted_Dødsland er ændret til “Sønderjylland (Tyskland)“ og “Ny_Region/Område” er ændret til “Sønderjylland (Tyskland)”.
Jeg finder Dødssted_Dødssted: “Toftlund, Toftlund sogn” (6). Det er følgende rækker: 1232, 2988, 462, 4805, 5394 og 5750. Toftlund var en del af Tyskland før 1920 og blev så dansk. Kilder: https://da.wikipedia.org/wiki/Toftlund og https://da.wikipedia.org/wiki/Toftlund_Sogn samt https://www.jv.dk/toender/Da-Toftlunds-maend-faldt/artikel/2417382. Jeg læser alle “Indtasters bemærkninger…” for hele denne blok, for at se om jeg bare kan ændre alle på én gang. Det kan jeg, jeg har ændret følgende:. Dødssted_Dødssted: er ændret til “Toftlund”. Dødssted_Dødsland er ændret til “Sønderjylland (Tyskland)“. “Ny_Region/Område” er ændret til “Sønderjylland (Tyskland)”.
Jeg finder Dødssted_Dødssted: “Hamburg” (12). Det er følgende rækker: 1147, 1478, 3184, 366, 4338, 4443, 4900, 5162, 5203, 5899, 6410 og 862. Hamborg var en del af Det Tyske Kejserrige under Første Verdenskrig: https://en.wikipedia.org/wiki/Hamburg. Jeg læser alle “Indtasters bemærkninger…” for hele denne blok, for at se om jeg bare kan ændre alle på én gang. Det kan jeg, jeg har ændret følgende: Dødssted_Dødsland er ændret til “Det Tyske Kejserrige“.
Jeg går nu igang med at bruge clustering-metoder i OpenRefine. Jeg arbejder med at rense data (stavefejl og lignende) ved hjælp af forskellige clustering-metode i kolonnen Dødssted_Dødssted. Jeg starter at rense uden filtre (text facets) som eksempelvis Dødssted_Dødsland: blank.
Jeg bruger først metoden Clustering: Key collision, fingerprint.
Jeg finder følgende cluster: Autreches(26 rows), Autréches(10 rows), Autrechés(1 rows), Autrêches(1 rows). Det er følgende rækker: 1332, 1374, 1482, 1839, 1936, 1939, 1972, 2516, 2517, 2655, 2676, 275, 2928, 3135, 3476, 3539, 3640, 3936, 3992, 4063, 4066, 4067, 4182, 4218, 4229, 4364, 4694, 5, 5255, 5718, 5726, 5774, 6264, 6369, 6545, 722, 917 og 979. Alle har Dødssted_Dødsland: Frankrig. Jeg søger på Google på alle stavemåder. Alle fire leder frem til kommunen “Autrêches” i Frankrig – bortset fra en enkelt der ender “blindt”. Tysk wiki bekræfter stort slag 1914/09/20. Kilder: https://en.wikipedia.org/wiki/Autr%C3%AAches og https://de.wikipedia.org/wiki/Autr%C3%AAches. Også Google Maps fører til området “Autrêches”. Jeg læser “Indtasters bemærkninger…” igennem, for at vurdere om jeg kan ændre alle til det samme. På baggrund af ovenstående ændres alle Dødssted_Dødssted til “Autrêches”.
Jeg finder følgende cluster: Somme(110 rows), Somme (3 rows), Somme (1 rows). Følgende rækker har fejl (mellemrum): 4074, 1331, 3007 og 3596. Jeg ændrer alle Dødssted_Dødssted til “Somme”.
Jeg finder følgende cluster: St. Marie a Py(2 rows), St. Marie à Py(1 rows), St. Marie á Py(1 rows). Rækker: 3062, 4403, 4864 og 5145. Dødsland: Frankrig for alle. Jeg søger på alle navne på Google. Alle ender ved “Sainte-Marie-à-Py (Commune in France)”. Især den tyske Wikipedia-artikel fortæller om krigshandlinger under Første Verdenskrig. Kilder: https://fr.wikipedia.org/wiki/Sainte-Marie-%C3%A0-Py, https://en.wikipedia.org/wiki/Sainte-Marie-%C3%A0-Py og https://de.wikipedia.org/wiki/Sainte-Marie-%C3%A0-Py. Jeg læser “Indtasters bemærkninger…” igennem. Derfor ændrer jeg alle Dødssted_Dødssted til “Sainte-Marie-à-Py”.
Jeg finder følgende cluster: Moulin(89 rows), Moulin (2 rows), Moulin (2 rows). Eneste forskel er for mange mellemrum ved følgende rækker: 2565, 2904, 260, 261. Jeg har læst “Indtasters bemærkninger…” til de fire rækker, der ændres. Alle Dødssted_Dødssted ændres til “Moulin”
Jeg finder følgende cluster: Henin Lietard(2 rows), Hénin Lietard(1 rows), Hénin Liétard(1 rows). Rækker: 3399, 5571, 6037 og 694. Dødsland: Frankrig for alle. Jeg søger på Google efter de tre stavemåder. Kilder: https://en.wikipedia.org/wiki/H%C3%A9nin-Beaumont, https://fr.wikipedia.org/wiki/H%C3%A9nin-Beaumont, https://de.wikipedia.org/wiki/H%C3%A9nin-Beaumont og https://geographic.org/geographic_names/name.php?uni=-2051981&fid=1928&c=france. Jeg læser alle “Indtasters bemærkninger…”. På baggrund af kilderne ændrer jeg derfor alle Dødssted_Dødssted til “Hénin-Liétard”.
Jeg finder følgende cluster: Hébuterne(2 rows), Hebuterne(1 rows). Rækker: 1179, 2280 og 5258. Dødsland: Frankrig gælder for alle. Begge navne når frem til “Hébuterne” ved Google-søgning. Kilder: https://en.wikipedia.org/wiki/H%C3%A9buterne og http://www.map-france.com/Hebuterne-62111/. Jeg læser “Indtasters bemærkninger…” Alle Dødssted_Dødssted ændres til “Hébuterne”
Jeg finder følgende cluster: Filain(4 rows), Filain (1 rows). Rækker: 1027, 1480, 3131, 5530 og 5780. Dødsland: Fire er Frankrig. En er blank. Eneste forskel er et enkelt mellemrum for meget i én række. Jeg tjekker rækken med Dødssted_Dødsland: Blank (række: 3131). Jeg har googlet “Filain” og finder https://en.wikipedia.org/wiki/Filain. Jeg finder ikke nogen indikationer på, at der ligger “Filain” andre steder end i Frankrig. Jeg ændrer derfor Dødsted_Dødsland til Frankrig for denne række. Jeg læser alle rækkers “Indtasters bemærkninger…”. På baggrund af ovenstående er alle Dødssted_Dødssted ændret til “Filain”.
Jeg finder følgende cluster: Puisalaine(22 rows), Puisalaine (1 rows). Eneste forskel er et ekstra mellemrum i række 3173. Alle Dødssted_Dødssted derfor ændret til “Puisalaine”.
Jeg finder følgende cluster: Gorz(1 rows), Görz(1 rows). Rækker: 1724 og 1886. Dødsland er blank for begge. Jeg søger på Google efter begge stavemåder. Jeg finder følgende sider: https://en.wikipedia.org/wiki/Gorz, https://en.wikipedia.org/wiki/Gorizia, https://en.wikipedia.org/wiki/Princely_County_of_Gorizia_and_Gradisca, https://da.wikipedia.org/wiki/%C3%98strig-Ungarn, https://en.wikipedia.org/wiki/Austrian_Littoral, https://da.wikipedia.org/wiki/Kronlande og https://da.wikipedia.org/wiki/%C3%98strig-Ungarn. Da jeg tager udgangspunkt i grænserne ved Første Verdenskrigs udbrud: Jeg vurderer, at Görz kan få Dødssted_Dødsland: Østrig-Ungarn, Region: “Østrigske kystland” (kunne dog også være “Østrigsk-illyriske kystland”). Gorz er også en by i Iran: https://en.wikipedia.org/wiki/Gorz,_Iran, men ifølge “Indtasters bemærkninger…” så døde vedkommende på “”Feldlazarett Nr: 1, III. Bay. Armeekorps” på tidspunktet 1916-03-28“. III. Bayerisches Armeekorps” var “21.02.1916 – 25.08.1916: Kämpfe zwischen Maas und Mosel“ ifølge http://genwiki.genealogy.net/III._Bayerisches_Armeekorps_(Alte_Armee). Begge er to floder i Frankrig og Frankrig, Luxemborg, Tyskland. Altså langt fra Iran. Jeg har ikke fundet noget materiale på, at Gorz skulle være i Iran eller andre steder. Jeg ændrer derfor Gorz til Görz. Der var dog tyske styrker i Iran: https://en.wikipedia.org/wiki/Persian_Campaign. På baggrund af ovenstående får begge rækker Dødssted_Dødsland: Østrig-Ungarn, Region: “Østrigske kystland” (kunne dog også være “Østrigsk-illyriske kystland”). På baggrund af ovenstående ændres begge Dødssted_Dødsted til Görz.
Jeg finder følgende cluster: Chaulnes, Somme(1 rows), Somme, Chaulnes(1 rows). Rækker: 870 og 1350. Begge har dødsland: Frankrig. Chaulnes er en kommune i Somme departementet. Kilder: https://en.wikipedia.org/wiki/Chaulnes, http://www.histo.com/ouvrages-histoire/38-b.htm, https://en.wikipedia.org/wiki/Somme_(department) og https://fr.wikipedia.org/wiki/Somme_(d%C3%A9partement). Jeg læser begge “Indtasters bemærkninger…”. Derfor ændrer jeg Dødssted_Dødssted til Chaulnes og Region til Somme.
Jeg finder følgende cluster: Flesquieres(1 rows), Flesquières(1 rows). Rækker: 1368 og 3809. Begge har dødssted Frankrig. Jeg søger på Google for begge stavemåder. Begge når frem til “Flesquières”. Kilde: https://en.wikipedia.org/wiki/Flesqui%C3%A8res. Google Maps giver det samme. Jeg læser “Indtasters bemærkninger…”. Jeg ændrer begge Dødssted_Dødssted til “Flesquières”
Jeg finder følgende cluster: Vieville(1 rows), Viéville(1 rows). Rækker: 1321 og 5845. Begge er Dødsland: Frankrig. Jeg søger på Google for begge stavemåder. Jeg når frem til “Viéville”. Kilder: https://en.wikipedia.org/wiki/Vi%C3%A9ville. Men også Viéville-en-Haye: https://en.wikipedia.org/wiki/Vi%C3%A9ville-en-Haye og Gircourt-lès-Viéville: https://en.wikipedia.org/wiki/Gircourt-l%C3%A8s-Vi%C3%A9ville. Derudover: https://de.wikipedia.org/wiki/Vi%C3%A9ville. Jeg når frem til Viéville via Google Maps. Jeg læser “Indtasters bemærkninger…”. Jeg ændrer begge Dødssted_Dødssted til “Viéville”
Jeg finder følgende cluster: Henin-Lietard(6 rows), Hénin-Liétard(4 rows). Rækker: 2237, 3218, 3399, 3464, 4573, 4871, 5133, 5571, 6037 og 694. Dødsland: Frankrig for alle. De to stavemåder er så tæt på de tre stavemåder behandlet ovenfor (Henin Lietard(2 rows) Hénin Lietard(1 rows) Hénin Liétard(1 rows), at jeg føler mig tryg i at bruge samme research som deroppe (se ovenfor). Jeg læser alle “Indtasters bemærkninger…”. Jeg ændrer derfor alle Dødssted_Dødssted til “Hénin-Liétard”.
Jeg finder følgende cluster: Ham(3 rows), Ham (1 rows). Rækker (Dødsland: Frankrig): 2741 og 5130. Rækker (dødsland: Blank): 3008 og 6084. Det er svært at google “Ham”. Også i Google Maps. Jeg læser “Indtasters bemærkninger…” og vurderer på den baggrund, at alle rækker har Dødssted_Dødsland: Frankrig. Det ændrer jeg til. Eneste forskel i stavemåde på “Ham” er et mellemrum for meget. Derfor ændrer jeg alle Dødssted_Dødssted til “Ham”
Jeg finder følgende cluster: Berméricourt(2 rows) og Bermericourt(1 rows). Det er følgende rækker: 3483 (Dødsland: Blank), 5408 (Dødsland: Blank), 6142 (Dødsland: Frankrig). Jeg søger på begge stavemåder på Google. Begge når frem til: “Berméricourt” i Franrkrig. Kilder: https://en.wikipedia.org/wiki/Berm%C3%A9ricourt og https://en.wikipedia.org/wiki/Marne. Det samme gør Google Maps. Jeg læser alle “Indtasters bemærkninger…”. Jeg ændrer alles Dødssted_Dødsland til Frankrig. Jeg ændrer alle Dødssted_Dødssted til “Berméricourt”.
Jeg finder følgende cluster: Aachen(11 rows), Aachen (1 rows). Rækker: 2381, 2881, 3406, 3914, 4572, 4966, 5490, 6165, 6177, 678, 698 og 741. Alle har Dødssted_Dødsland: Blank. Jeg søger på Aachen på Google. I 1914 var Aachen en del af Rhine Province i det Tyske Kejserrige. Kilder: https://en.wikipedia.org/wiki/Aachen, https://en.wikipedia.org/wiki/Rhine_Province, https://da.wikipedia.org/wiki/Tyske_Kejserrige#Geopolitisk_placering_i_Mellemeuropa, og https://da.wikipedia.org/wiki/Preussen. Jeg læser alle “Indtasters bemærkninger…”. Jeg ændrer Dødssted_Dødsland til Det Tyske Kejserrige for alle. Eneste forskel på de to stavemåder af Aachen er et mellemrum for meget. Alle Dødssted_Dødssted rettes til “Aachen”.
Jeg finder følgende cluster: Soissons(19 rows), Soissons (2 rows). Rækker: 1475, 171, 1840, 1866, 2187, 2390, 2611, 2889, 2922, 3158, 3385, 4187, 5027, 503, 5222, 5279, 5385, 56, 5954, 6050 og 929. Række 2611 har Dødssted_Dødsland: Blank. Alle andre har Dødssted_Dødsland: Frankrig. Jeg googler og finder https://en.wikipedia.org/wiki/Soissons og https://en.wikipedia.org/wiki/Aisne. Jeg læser “Indtasters bemærkninger…”. For række 2611 ændrer jeg Dødssted_Dødsland til Frankrig. Eneste forskel på de to stavemåder af Soissons er et mellemrum for meget. Alle Dødssted_Dødssted rettes til “Soissons”.
Jeg finder følgende cluster: Buddern, Ost-Preussen(1 rows), Buddern, Ostpreussen(1 rows). Rækker: 298 og 1545. Begge rækker har Dødssted_Dødsland: Blank. Jeg har tidligere undersøgt Buddern og bruger derfor ovenstående research. Jeg læser “Indtasters bemærkninger…”. For begge rækker ændrer jeg Dødssted_Dødsland til “Det Tyske Kejserrige“ og “Ny_Region/Område” ændres til “Østpreussen”. Dødssted_Dødssted er ændret til Buddern.
Jeg finder følgende cluster: Thelus (Arras)(1 rows) og Thelus, Arras(1 rows). Rækker: 1813 (dødsland: Blank) og 2814 (dødsland: Frankrig). Jeg søger på Google finder følgende kilder: https://en.wikipedia.org/wiki/Th%C3%A9lus og https://en.wikipedia.org/wiki/Pas-de-Calais. Ved at sammenligne kort af Frankrig i 1914 og Google Maps: Thelus kan jeg se at det lå i Frankrig i 1914. Kilder: https://nzhistory.govt.nz/media/photo/map-republic-france-1914 og https://www.google.dk/maps/place/62580+Th%C3%A9lus,+France/@50.3614489,2.2127213,8.01z/data=!4m5!3m4!1s0x47dd379939efec91:0x40af13e8163d310!8m2!3d50.354355!4d2.799941. Jeg læser “Indtasters bemærkninger…”. Jeg ændrer Dødssted_Dødsland til Frankrig. eg ændrer Dødssted_Dødssted til Thélus, Arras.
Her stopper jeg datarensning af Dødssted_Dødssted og Dødssted_Dødsland. Se begrundelse i den generelle log.

Log over rensning af dupletter (detaljeret log)

Som nævnt i den generelle log, så laver jeg tjek efter dupletter ved at sammenkæde værdier i forskellige kolonner i nye kolonner. Jeg har i den generelle log noteret, hvilke slags kombinationer jeg bruger. Her vil jeg blot notere de specifikke rækker, som, jeg vurderer, er dupletter. Jeg har altså lavet en del arbejde i dette trin, som ikke har resulteret i ændringer i datasættet – og som ikke er noteret her.
Række: 4873 og 4874.
Begge rækker er Hans Christian Petersen død “Wed Jun 16 00:00:00 CET 1915”. De to rækker adskiller sig på flere punkter, men jeg vurderer, at de er samme person på grund af følgende:Der er forskelligheder ved dødssted: Moulin vs. Puisaleine, men i “Indtasters bemærkninger…” nævnes Moulin ved rækken, der har angivet Puisaleine som dødssted.Bopæl_Bopæl er også forskellig (Oksenvad vs. Mølby, Haderslev). Men ved rækker med “Mølby” er mindested og dåb i Oksenvad (ifølge “Indtasters bemærkninger…”).De to rækker har en del ligheder eksempelvis: Amt, militært tilhørsforhold, fødselsdato, fødested. Navnet på enke/moder (begge oplysninger) er Anna Dorthea Petersen vs. Dorothea Petersen (begge i Mølby, Haderslev).Jeg vurderer at de er to ens. Jeg gør række 4873 til overordnet og 4874 til underordnet, da førstnævnte har mest information. I kolonnen Duplet (0/Duplet/Række X) tilføjes “4874” til række 4873, og række 4874 får tilføjet “1”, hvilket senere er blevet rettet til “Duplet”. Række 4874 får i kolonnen “Kasseret (0/1)” tilføjet “1”.
Række 2516 og 2517.
Begge er Christian Jacobsen død ved Autrêches. Deres fødseldato er forskellige, men det er virkeligt mange og specifikke oplysninger, som er ens, og fødselsdatoernes forskellighed ligner tryk- eller læsefejl mellem et enkelt “0” og “8”.
Derfor bryder jeg med mit princip om ingen væsentligt modstridende oplysninger og vurderer, at disse to rækker er samme person. Jeg vælger at gøre række 2517 til overordnet række og kasserer rækken 2516, da førstnævnte har flest oplysninger (bl.a. dødsdag).
Jeg ændrer følgende for de to rækker. Række 2516: I kolonnen “Kasseret (0/1)” tilføjes “1” og i kolonnen Duplet (0/Duplet/Række X) tilføjes “Duplet”. I kolonnen Duplet (0/Duplet/Række X) tilføjes 2516.
Række 1578 og 1581.
Fødselsdato og dødsdato er identisk, og deres navne er næsten: JOHANN HEINRICH GIÖRTZ (1578) vs. JOHANN HEINRICH GJÖRTZ (1581). Navnet virker til at være den eneste (lille) forskel på disse to. Der er meget, som er helt identisk og ingen forskelle. Jeg vurderer, at dette er en duplet. Jeg “beholder” rækken 1581, da denne har information i kolonnen “alder ved død”, som jeg skal bruge senere. Den anden markeres som duplet. Altså laver jeg følgende ændringer. Række 1578 (JOHANN HEINRICH GIÖRTZ) får tilføjet “1” i kolonnen “Kasseret (0/1)” og får tilføjet “1” i kolonnen “Duplet (0/Duplet/række)” (hvilket senere rettes til “Duplet”). Række 1581 (JOHANN HEINRICH GJÖRTZ) får tilføjet “1578” til kolonnen “Duplet (0/Duplet/række)”.
Række 1573 (JØRGEN HANSEN GIESSEMANN) og 1577 (JØRGEN HANSEN GISSEMANN).
Jeg er meget i tvivl om disse to rækker, da meget andet end dødssted ser ens ud. Jeg har valgt ikke at vurdere denne som duplet ud fra mit nævnte princip, men de to rækker er alligevel så ens, at jeg har valgt at notere dem her, så eventuelle interesserede læsere selv kan vurdere de to rækker. Jeg hører meget gerne din vurdering af disse to rækker – så send mig meget gerne en besked på Vores gamle Danmarks Facebook-side med dine tanker om spørgsmålet
Række 2559 (MARTINUS JACOBSEN) og 2589 (MARTINUS JAKOBSEN).
Navnet virker til at være den eneste forskel på disse to rækker. Der er meget, som er helt identisk og ingen forskelle. Jeg vurderer, at disse er dupletter. Jeg “beholder” rækken 2559, da denne har mest information, som jeg skal bruge senere. Den anden markeres som duplet. Altså ændrer jeg følgende:
For rækken 2559 (MARTINUS JACOBSEN) tilføjes i “2589” i kolonnen “Duplet (0/Duplet/række)”.
For rækken 2589 (MARTINUS JAKOBSEN) tilføjes “1” i kolonnen “Kasseret (0/1)” og “Duplet” tilføjes i kolonnen “Duplet (0/Duplet/række)”

Tjek af ekstreme værdier, blanke værdier og lignende i alle kolonner (detaljeret log)

For at opdage eventuelt ekstreme, manglende eller forkerte værdier gennemgår jeg en række teknikker på datasættet. Jeg bruger både Excel og OpenRefine og laver blandt andet text facets/pivot tables, hvor jeg kan gennemse de forskellige værdier i en kolonne. Jeg laver tidslinjer og grafer, hvor det er relevant. Her i loggen vil jeg dog kun notere de opdagelse, som har givet anledning til ændringer i datasættet. Pointer fra denne undersøgelse er en del af baggrunden for min samlede vurdering af datasættets datakvalitet.
Række: 6215 – Claus Heinrich Johannes. Fødselsdato: 2890-06-15T00:00:00Z. Den fødselsdato må være forkert, da han dødsdato er 1917-02-19, og hans alder ved død er 26. Derfor retter jeg årstallet til 1890 i kolonnen “Fødsels-dato_til rettelser (ny kolonne)”. Jeg flytter kolonnen Fødsels-dato længst til højre i datasættet, da denne skal bevares som original.
Jeg laver også rettelserne i Excel-dokumentet: Jeg opretter ny kopi af Excel-arket kaldet “180105_cleaning_14_enkelt sheet_rettelser af fødselsdatoer” og tilføjer rettelserne i fødseldato fra OpenRefine i kolonnerne “Fødselsår” og “Fødsels-dato_til rettelser (ny kolonne)”. Fødselsår rettes fra 2890 til 1890. Bemærk, at række nr. fra OpenRefine skal læses i Excel-arkets kolonne kaldet “Ny_Oprindelig ID” (altså 6215).
Fortsat i Excel-arket: Jeg tilføjer “(må ikke bruges til analyse, mangler rettelser)” til navnet på kolonnerne “Fødsels-dato” og “Fødsels-dato_kopi af original kolonne rettet inden datoslice”
Række 133: AUGUST CHRISTIAN ANDRESEN. Fødselsdato: 1918-02-24T00:00:00Z. Der kan ikke findes hjælp til at finde den korrekte dato i andre kolonner. Kilde angives til at være Ansøgning i Invalidenævnets Efterladtesager (A-IE), hvor der skal søges adgang for at lov til at se dem. Derfor kan jeg ikke umiddelbart (let) tjekke op på datoen. Jeg vælger at slette fødselsdatoen, da den åbenlyst er ukorrekt. I Openrefine: indtastning i “Fødsels-dato_til rettelser (ny kolonne)” slettes. I Excel-arket: indtastning i “Fødselsdag”, “Fødselsmåned”, “Fødselsår”, “Fødsels-dato_til rettelser (ny kolonne)” slettes.
Række: 6215 – Claus Heinrich Johannes. I OpenRefine: Jeg ændrer fødselsdato fra 1890-06-15T00:00:00Z til 15-06-1890 for at matche datoformat for de andre fødselsdatoindtastninger pre-1900.
Kolonnen Dødssted_Dødssted. Jeg laver “trim leading and trailing whitespace” på kolonnen. Jeg laver “Collapse consecutive whitespace” på kolonnen. Lige nu har jeg 3058 forskellige værdier i kolonnen, hvis jeg laver alle til uppercase har jeg kun 3055. Der er altså noget at hente der. Men jeg venter med at lave den funktion, da jeg måske gerne vil bruge værdierne med deres oprindelige brug af store og små bogstaver.
Jeg flytter “BACKUP_original_Dødssted_Dødssted”-kolonnen længst til højre i datasættet, da den ikke skal bruges mere umiddelbart. Der er i øvrigt for mange forskellige værdier i kolonnen med dødssted, til at jeg kan gå dem igennem dem enkeltvis.
Jeg flytter “BACKUP_originalt_Dødssted_Dødsland”-kolonnen længst til højre, da den ikke skal bruges mere umiddelbart.
Kolonnen Døds-årsag. Jeg laver “trim leading and trailing whitespace” på kolonnen. Jeg laver “Collapse consecutive Whitespaces” på kolonnen.
4062: Jacob Andreas Johannsen Mau. Ifølge kolonnen Døds-årsag er han “Fejlagtigt meldt død i DBR”. “Indtasters bemærkninger…” oplyser “Jacob Mau er ikke død, men hjemvendt fra russisk fangenskab. Ved Folketælling 1921 er Jacob Mau tjenestekarl i Felsted“. For denne række: Jeg ændrer kolonnen “Kasseret (0/1)” til “1”.
4918: Ingwert Petersen. Ifølge kolonnen Døds-årsag er han “Fejlagtigt meldt død i DBR”. “Indtasters bemærkninger…” oplyser “Ved siden af dødsindførslen i DBR er den 27-04-1917 noteret, at omtalte soldat IKKE er død. NB: Ifølge oplysninger sendt til Sønderborg Slot, fremgår det, at Ingwert Petersen døde i 1967.” For denne række: Jeg ændrer kolonnen “Kasseret (0/1)” til “1”.
5410: Hans Johann Gotthard Sartorius. Ifølge kolonnen Døds-årsag er han “Savnet, men lever 1922 i Tyskland”. “Indtasters bemærkninger…” oplyser “Herefter oplyses, at Hans Sartorius blev savnet i november 1917 på Vestfronten, men ifølge kammerater i engelsk fangenskab. Men i sagen ligger et brev dateret 1922 fra H. J. G. Sartorius, der godtgør at han lever og at han i november 1917 har giftet sig med en anden kvinde.” For denne række: Jeg ændrer kolonnen “Kasseret (0/1)” til “1”.