3 EDB og lenkingsmetodikk

Gjennom arbeidet med denne flytteundersøkelsen har jeg gjort utstrakt bruk av edb. Formålet med dette kapittelet er å si noe mer dyptgående om denne viktige prosessen, som har gjort det mulig å gjennomføre undersøkelsen i såpass stort omfang. I hovedsak kan bruken deles inn i tre. For det første har jeg bearbeidet hver enkelt kilde i databaseprogrammet Access. Koding av persondata har stått sentralt i dette arbeidet og blir nærmere omtalt under.For det andre har jeg brukt edb til å lenke (knytte sammen) personer mellom de forskjellige kildene, en prosess som delvis er gjort automatisk av maskinen. Til sist er edb brukt til å analysere og kjøre statistikk på de funn som har vært gjort. Til dette arbeidet har statistikkprogrammet SPSS og regneprogrammet Excel stått sentralt.

3.1 Hvorfor skal en kode?

Å organisere datainformasjon til analytiske kategorier er et sentralt punkt i de fleste undersøkelser. Den vanligste betegnelsen for dette er koding, og i denne undersøkelsen har koding vært en vesentlig del av arbeidet.^[66] Charles Harvey og Jon Press (1996) nevner fire grunnleggende fordeler en oppnår gjennom koding:

Å standardisere vil her si at for eksempel ”snekkermester” og ”snedkermester” får samme betegnelse, altså en tallkode. Fordi stavingen er forskjellig setter maskinen skille mellom de to yrkene, og resultatet er en lite hensiktsmessig tabell å jobbe med. De som utarbeidet Norges offentlige statistikk (NOS) benyttet også ulike kodesystem når det skulle lages statistikk etter hver folketelling. Problemet med å bruke deres system, er at de benyttet ulike kodeprinsipper på de forskjellige folketellingene. Særlig gjaldt dette i forhold til yrker.^[67]

Som nevnt tidligere er det innenfor historiefaget en sterk tradisjon for å skrive ordrett av under selve edb-registreringsarbeidet. Siktemålet med denne fremgangsmåten er naturligvis at den edb-registrerte utgaven skal ligge så tett opptil primærkilden som mulig.^[68] I praksis innebærer dette at koding av kildene må finne sted i etterkant. I denne undersøkelsen, hvor jeg følger enkeltindivider fra kilde til kilde, er det helt avgjørende at personopplysningene (fornavn, etternavn, fødselsår, kjønn og fødested) er mest mulig identiske i de forskjellige kildene. Dessverre er dette mer unntaket enn regelen. Blant de 1567 personene jeg har forsøkt å lenke mellom 1865 og 1875 er det bare noen ganske få som står oppført med nøyaktig de samme personopplysningene i begge folketellingene. Jeg vil nå kort vise hvordan jeg konkret har tenkt og handlet for å komme disse utfordringene i møte.

3.2 Normalisering av navn - soundex

En skulle kanskje tro at en persons navn ble notert nøyaktig likt, uavhengig av kildetype og årstall. Slik var det imidlertid ikke. Mange kunne ikke skrive selv og måtte la listeføreren eller en annen notere ned navnet. Skrivemåten var altså mer avhengig av vedkommende som skrev enn personen selv, og følgelig varierte den fra kilde til kilde. I tillegg kommer at de forskjellige kildene kunne ha ulike skriveprinsipper, som at fornavnet er forkortet i byskatten og etternavnet er forkortet i 91-tellingen. Når det gjelder de mange innflytterne som kom til byene var det ikke uvanlig at gårdsetternavnet forsvant eller ble forandret etter noen år i byen. I folketellingene for Bergen utgjorde personer fra Hosanger prestegjeld som ikke oppga gårdsnavn rundt 70% i 1865 og 45 % i 1875.^[69] Dette var nok ikke noe særtrekk med flytterne fra Hosanger, men heller et utrykk for at gårdsnavnet hadde liten betydning ved integreringen i storbymiljøet. Mot slutten av forrige århundre ble det også mer vanlig at kvinnen tok mannens etternavn ved ekteskapsinngåelse, og barna tok farens etternavn uforandret, istedenfor et patronymikon.^[70]

Alle disse faktorene må en ta hensyn til under lenkingsarbeidet. En person som står oppført som ”Niels Mickelsen” i 1865 og som ”Nils Mikkelsen” i 1875, kan ikke lenkes av maskinen med mindre navnet gis en kode som er felles for begge skrivemåtene. En slik normalisering av navn er derfor helt nødvendig, og her fins det mange prinsippløsninger. Jeg har valgt en løsning på leksikalsk nivå. Det innebærer at navnevarianter som uttales likt, eller der kun mindre lydlige forskjeller forekommer, blir ført sammen. Denne standardiseringen gjør at både Marte, Marrte, Marta og Martha blir identiske. Jeg har benyttet normaliseringsverktøyet Soundex, basert på den originale, engelske versjonen. En lite minus med dette systemet er at en får skille mellom Ch og K. For eksempel har Christian og Kristian ulik soundex-kode. Systemet fungerer ellers nokså bra, og normaliseringen gjøres automatisk av en programmert modul i databaseprogrammet Access.^[71] I mange tilfeller kommer imidlertid normaliseringsverktøyet for kort, noe som kan illustreres med et eksempel.

I folketellingen i 1891 står en enke oppført som: ”Anne Magrete Mads. født Jens, 1819, enke”. I folketellingen for 1900 har opplysningene endret karakter: ”Anna Myrvold, 1819, enke.” Det som har skjedd er at hun har tatt svigersønnen sitt gårdsetternavn, Myrvold, og bare beholdt fornavnet. Som om ikke det er nok har svigersønnen også skiftet navn, fra Andersen når han gifter seg, til Myrvold i dåpslistene og 1900-tellingen.

Eksempelet illustrerer et viktig poeng ved lenkingsarbeidet. Svært mange må identifiseres ut i fra andre personer de kan relateres til. Det er som regel ektefelle eller barn. Enken i eksempelet hadde ikke blitt sporet om hun hadde vært alene i husholdet, og naturligvis forenkler det søkearbeidet at hun ikke flytter i perioden. Slik lenking kan ikke gjøres maskinelt. Jeg har derfor i tillegg til den maskinelle lenkingen også lenket manuelt.

3.3 Fødested hvor?

Alle folketellingene i utvalgsperioden gir opplysning om fødested, men det betyr ikke at rubrikken er entydig og problemfri. En gjengangerer er ulik stavelse av fødestedet, for eksempel ”Haus” og ”Haugs” eller ”Christiania” og ”Xania”. Et annet problem er at stedsangivelsene har ulik presisjon. Noen oppgir bare amt (Søndre Bergenhus) eller fogderi (Nordfjord) til telleren eller listeføreren. Andre oppgir gård, sokn, herred eller prestegjeld. Løsningen jeg har valgt er å aggregere de forskjellige opplysningene til kommunenivå, siden alle kommuner som noen gang har eksistert har sitt eget unike kommunenummer. Dette er en vanlig fremgangsmåte ved koding av fødested og fungerer bra i praksis.^[72]

Norsk samfunnsvitenskapelig datatjeneste har publisert en historisk utgave av dette kommunenummersystemet, som baserer seg på kommunekoder fra Statistisk sentralbyrå.^[73] Systemet er hierarkisk i og med at de to første sifferne i koden angir fylke, og det tar hensyn til endringer av kommunegrensene som har vært fra 1837 og fremover. Her vil en for eksempel finne 1280, som er kommunen Årstad i Hordaland frå 1838 til 1915.

Et problem med å bruke denne ”kodeboken” er at en kommune kunne ha forskjellig grense i forhold til prestegjeldet med samme navn. Det var også vanlig at ett prestegjeld dekket flere kommuner og at både navn og grenser endret seg i kildeperioden. I noen få tilfeller har jeg derfor slått sammen to kommuner til én, der forholdene har vært spesielle. En forutsetning da er naturligvis at de grenser mot hverandre, eksempelvis Voss og Vossestrand.^[74] Disse tingene utgjør neppe noe vesentlig kildeproblem, men viser nok en gang at folketellingene må brukes varsomt, særlig i et sammenligningsperspektiv.

Et langt større problem ved kodearbeidet er at flere stedsnavn er mangetydige. Navn som for eksempel Bø (Telemerk eller Nordland), Dale (Fjaler eller Gaular), Vang (Valdres eller Hedmark), Hitterøen (Sør-trøndelag eller Vest-Agder) er det lett å bomme på. Som regel lar problemet seg løse ved at en finner samme personen i en annen kilde der fødestedet forhåpentligvis er bedre spesifisert. Ellers kan en også lese informasjon ut av familienavnet og andre personer i husholdningen som vedkommende er relatert til. I enkelte tilfeller har jeg likevel bare kodet fylket som minste enhet (Nordre Bergenshus Amt), og i ca en prosent av tilfellene blir spesifikasjon av fødested umulig. I den grad denne feilen slår ut, er det innflytterandelen som underestimeres, men da altså i mikroskopisk målestokk.

3.4 Koding og klassifikasjon av yrker

Å kode yrkesopplysninger i folketellingene er en prosess som først og fremst er rettet mot migrasjonsanalysen. Der trenger en å si noe om forholdet mellom sosial og geografisk mobilitet, og forskjellige yrkesgruppers forhold til flytting generelt. I selve lenkingsarbeidet brukes disse opplysningene bare som hjelp og tilleggsinformasjon.

Jeg har fått lov å være med i et forsøksprosjekt ved Digitalarkivet, der en gruppe entusiaster ved Universitetet i Bergen har jobbet sammen på dette området. Arbeidet har vært ledet av Arne Solli, mens Jan Oldervoll har vært hovedansvarlig for den edb-messige delen av arbeidet. Intensjonen har vært å automatisere yrkeskodingen i størst mulig grad, uten å introdusere nye feil underveis, for deretter å gjøre den tilgjengelig gjennom internett. Dette arbeidet har langt på vei lykkes gjennom et edb-program som koder 97-98% av yrkene i en folketelling, men som krever et nokså omfattende ”avkodingsarbeid” etterpå. Nå vil imidlertid den automatiserte kodeprosessen hele tiden forbedres, simpelthen fordi nye yrkes- og yrkesbetegnelser kan legges inn i en liste som programmet kontinuerlig leser igjennom. Det vil likevel alltid, ”paa Grund av Originalopgavernes Mangelagtighed”^[75] oppstå tilfeller der programmet må ha hjelp til å kode rett. Først når alle yrkesvariabler har fått sin unike kode er arbeidet fullført. Det vil i praksis si at alle de 30 variantene av ”tjenestepige” har fått én felles yrkesbetegnelse, men samtidig beholdt relasjonen til den originale skrivemåten. Dermed kan en hele tiden kontrollere at en har kodet riktig. Mitt ansvarsområde i kodeprosjektet har vært folketellingen for Bergen i 1865 og 1891.

Etter at selve yrkeskodingen er gjennomført skal yrkene klassifiseres, det vil si fordele dem i hensiktsmessige grupper. Denne klassifikasjonen kan derimot gjøres på flere forskjellige måter, og er derfor et stadig diskusjonsområde innenfor historisk demografi. Kjær fant dette som den tyngste del av arbeidet med folketellingene: ”Oppstillingen af de forskjellige Næringsklasser og de enkelte Individers Indordning under disse hører i det hele taget til de vanskeligste Opgaver for Statistiken.” ^[76] Kanskje var det derfor at Det Statistiske Centralbureau la ulike klassifikasjonsprinsipper til grunn mellom de forskjellige tellingene. Ved folketellingen i 1865 tok man ”Hensyn til selve Arbeidets gjenstand og Art”.^[77] I 1875 derimot, grupperte en også i forhold til sosial hierarkisk posisjon. Det gav et langt mer detaljert klassifikasjonssystem både med ”Arbeidets Karakter.....og dernæst Personernes mer eller mindre selvstændige, overordnede eller underordnede Stilling i arbeidet”.^[78] I 1891 og 1900 brukte en et klassifiksajonssystem som var mer i tråd med 65-tellingen.

Jeg vil i denne oppgaven benytte to ulike klassifikasjonssystemer. Det ene er RHD sitt system, som både er et kode – og klassifikasjonsstystem, og der yrkene er gruppert etter en sosial hierarkisk dimensjon. Det vil si den posisjonen de hadde i samfunnet (appendiks 1).^[79] Klassifikasjonssystemet er best tilpasset mer aggrare befolkningsområder, men er ment å være et komplett system for hele Norges befolkning. Det er også mye benyttet i forskningssammenheng.^[80] Det andre systemet jeg har benyttet er en klassifikasjon fra NOS i forbindelse med de i 1875 ”fremsatte Stemmeretsforslags virkning” på befolkningen.^[81] Yrkene blir her klassifisert i seks ulike kategorier, med en svært detaljert oppramsing av hvilke yrker som hører med i hver kategori (appendiks 2). På den måten blir også mitt klassifikasjonsarbeid mer konsekvent og tidsriktig i forhold til oppfatninger om sosial hierarkisk inndeling.

Det kan kanskje virke som at all kodingen har liten verdi siden det for hver eneste kategori er mangler, tvilstilfeller og vanskeligheter. Egentlig er dette langt fra sannheten ettersom de aller fleste opplysninger lar seg kode enkelt og greit uten snev av tvil. En god del lar seg til og med kode maskinelt, når forarbeidet er gjort skikkelig og en har god programvare for hånden. Når jeg likevel fokuserer på vanskelighetene og lar resten stå nesten uberørt, er hensikten å skape innsikt i prosessen. Kodearbeidet er på en måte grunnmuren i ”huset” som skal reises, og resultatet skal være mest mulig pålitelige data. Samtidig forteller prosessen at det alltid vil være grad av skjønn som ligger bak, og at dataene må brukes med forsiktighet.