3 EDB
og lenkingsmetodikk
Gjennom arbeidet med denne flytteundersøkelsen har jeg gjort
utstrakt bruk av edb. Formålet med dette kapittelet er å si noe mer
dyptgående om denne viktige prosessen, som har gjort det mulig å
gjennomføre undersøkelsen i såpass stort omfang. I hovedsak
kan bruken deles inn i tre. For det første har jeg bearbeidet hver enkelt
kilde i databaseprogrammet Access. Koding av persondata har stått sentralt
i dette arbeidet og blir nærmere omtalt under. For det andre
har jeg brukt edb til å lenke (knytte sammen) personer mellom de
forskjellige kildene, en prosess som delvis er gjort automatisk av maskinen. Til
sist er edb brukt til å analysere og kjøre statistikk på de
funn som har vært gjort. Til dette arbeidet har statistikkprogrammet SPSS
og regneprogrammet Excel stått sentralt.
3.1 Hvorfor
skal en kode?
Å organisere datainformasjon til analytiske kategorier er et sentralt
punkt i de fleste undersøkelser. Den vanligste betegnelsen for dette er
koding, og i denne undersøkelsen har koding vært en vesentlig del
av arbeidet.
[66] Charles Harvey og
Jon Press (1996) nevner fire grunnleggende fordeler en oppnår gjennom
koding:
• Standardiserer måten virkeligheten er beskrevet
• Organiserer datainformasjon til analytiske kategorier
• Reduserer lagringsbehovet på datamaskinen
• Øker hastigheten ved spørringer o.l
Å standardisere vil her si at for eksempel
”snekkermester” og ”snedkermester” får samme
betegnelse, altså en tallkode. Fordi stavingen er forskjellig setter
maskinen skille mellom de to yrkene, og resultatet er en lite hensiktsmessig
tabell å jobbe med. De som utarbeidet Norges offentlige statistikk (NOS)
benyttet også ulike kodesystem når det skulle lages statistikk etter
hver folketelling. Problemet med å bruke deres system, er at de benyttet
ulike kodeprinsipper på de forskjellige folketellingene. Særlig
gjaldt dette i forhold til
yrker.
[67]
Som nevnt tidligere er det innenfor historiefaget en sterk tradisjon for
å skrive ordrett av under selve edb-registreringsarbeidet.
Siktemålet med denne fremgangsmåten er naturligvis at den
edb-registrerte utgaven skal ligge så tett opptil primærkilden som
mulig.
[68] I praksis innebærer
dette at koding av kildene må finne sted i etterkant. I denne
undersøkelsen, hvor jeg følger enkeltindivider fra kilde til
kilde, er det helt avgjørende at personopplysningene (fornavn, etternavn,
fødselsår, kjønn og fødested) er mest mulig identiske
i de forskjellige kildene. Dessverre er dette mer unntaket enn regelen. Blant de
1567 personene jeg har forsøkt å lenke mellom 1865 og 1875 er det
bare noen ganske få som står oppført med nøyaktig de
samme personopplysningene i begge folketellingene. Jeg vil nå kort vise
hvordan jeg konkret har tenkt og handlet for å komme disse utfordringene i
møte.
3.2 Normalisering
av navn - soundex
En skulle kanskje tro at en persons navn ble notert nøyaktig likt,
uavhengig av kildetype og årstall. Slik var det imidlertid ikke. Mange
kunne ikke skrive selv og måtte la listeføreren eller en annen
notere ned navnet. Skrivemåten var altså mer avhengig av vedkommende
som skrev enn personen selv, og følgelig varierte den fra kilde til
kilde. I tillegg kommer at de forskjellige kildene kunne ha ulike
skriveprinsipper, som at fornavnet er forkortet i byskatten og etternavnet er
forkortet i 91-tellingen. Når det gjelder de mange innflytterne som kom
til byene var det ikke uvanlig at gårdsetternavnet forsvant eller ble
forandret etter noen år i byen. I folketellingene for Bergen utgjorde
personer fra Hosanger prestegjeld som ikke oppga gårdsnavn rundt 70% i
1865 og 45 % i 1875.
[69] Dette var
nok ikke noe særtrekk med flytterne fra Hosanger, men heller et utrykk for
at gårdsnavnet hadde liten betydning ved integreringen i
storbymiljøet. Mot slutten av forrige århundre ble det også
mer vanlig at kvinnen tok mannens etternavn ved ekteskapsinngåelse, og
barna tok farens etternavn uforandret, istedenfor et
patronymikon.
[70]
Alle disse faktorene må en ta hensyn til under lenkingsarbeidet. En
person som står oppført som ”Niels Mickelsen” i 1865 og
som ”Nils Mikkelsen” i 1875, kan ikke lenkes av maskinen med mindre
navnet gis en kode som er felles for begge skrivemåtene. En slik
normalisering av navn er derfor helt nødvendig, og her fins det mange
prinsippløsninger. Jeg har valgt en løsning på leksikalsk
nivå. Det innebærer at navnevarianter som uttales likt, eller der
kun mindre lydlige forskjeller forekommer, blir ført sammen. Denne
standardiseringen gjør at både Marte, Marrte, Marta og Martha blir
identiske. Jeg har benyttet normaliseringsverktøyet Soundex, basert
på den originale, engelske versjonen. En lite minus med dette systemet er
at en får skille mellom Ch og K. For eksempel har Christian og Kristian
ulik soundex-kode. Systemet fungerer ellers nokså bra, og normaliseringen
gjøres automatisk av en programmert modul i databaseprogrammet
Access.
[71] I mange tilfeller kommer
imidlertid normaliseringsverktøyet for kort, noe som kan illustreres med
et eksempel.
I folketellingen i 1891 står en enke oppført som:
”Anne Magrete Mads. født Jens, 1819, enke”. I
folketellingen for 1900 har opplysningene endret karakter: ”Anna
Myrvold, 1819, enke.” Det som har skjedd er at hun har tatt
svigersønnen sitt gårdsetternavn, Myrvold, og bare beholdt
fornavnet. Som om ikke det er nok har svigersønnen også skiftet
navn, fra Andersen når han gifter seg, til Myrvold i dåpslistene og
1900-tellingen.
Eksempelet illustrerer et viktig poeng ved lenkingsarbeidet. Svært
mange må identifiseres ut i fra andre personer de kan relateres til. Det
er som regel ektefelle eller barn. Enken i eksempelet hadde ikke blitt sporet om
hun hadde vært alene i husholdet, og naturligvis forenkler det
søkearbeidet at hun ikke flytter i perioden. Slik lenking kan ikke
gjøres maskinelt. Jeg har derfor i tillegg til den maskinelle lenkingen
også lenket manuelt.
3.3 Fødested
hvor?
Alle folketellingene i utvalgsperioden gir opplysning om fødested,
men det betyr ikke at rubrikken er entydig og problemfri. En gjengangerer er
ulik stavelse av fødestedet, for eksempel ”Haus” og
”Haugs” eller ”Christiania” og ”Xania”. Et
annet problem er at stedsangivelsene har ulik presisjon. Noen oppgir bare amt
(Søndre Bergenhus) eller fogderi (Nordfjord) til telleren eller
listeføreren. Andre oppgir gård, sokn, herred eller prestegjeld.
Løsningen jeg har valgt er å aggregere de forskjellige
opplysningene til kommunenivå, siden alle kommuner som noen gang har
eksistert har sitt eget unike kommunenummer. Dette er en vanlig
fremgangsmåte ved koding av fødested og fungerer bra i
praksis.
[72]
Norsk samfunnsvitenskapelig datatjeneste har publisert en historisk utgave
av dette kommunenummersystemet, som baserer seg på kommunekoder fra
Statistisk sentralbyrå.
[73]
Systemet er hierarkisk i og med at de to første sifferne i koden angir
fylke, og det tar hensyn til endringer av kommunegrensene som har vært fra
1837 og fremover. Her vil en for eksempel finne 1280, som er kommunen
Årstad i Hordaland frå 1838 til 1915.
Et problem med å bruke denne ”kodeboken” er at en kommune
kunne ha forskjellig grense i forhold til prestegjeldet med samme navn. Det var
også vanlig at ett prestegjeld dekket flere kommuner og at både navn
og grenser endret seg i kildeperioden. I noen få tilfeller har jeg derfor
slått sammen to kommuner til én, der forholdene har vært
spesielle. En forutsetning da er naturligvis at de grenser mot hverandre,
eksempelvis Voss og Vossestrand.
[74]
Disse tingene utgjør neppe noe vesentlig kildeproblem, men viser nok en
gang at folketellingene må brukes varsomt, særlig i et
sammenligningsperspektiv.
Et langt større problem ved kodearbeidet er at flere stedsnavn er
mangetydige. Navn som for eksempel Bø (Telemerk eller Nordland), Dale
(Fjaler eller Gaular), Vang (Valdres eller Hedmark), Hitterøen
(Sør-trøndelag eller Vest-Agder) er det lett å bomme
på. Som regel lar problemet seg løse ved at en finner samme
personen i en annen kilde der fødestedet forhåpentligvis er bedre
spesifisert. Ellers kan en også lese informasjon ut av familienavnet og
andre personer i husholdningen som vedkommende er relatert til. I enkelte
tilfeller har jeg likevel bare kodet fylket som minste enhet (Nordre Bergenshus
Amt), og i ca en prosent av tilfellene blir spesifikasjon av fødested
umulig. I den grad denne feilen slår ut, er det innflytterandelen som
underestimeres, men da altså i mikroskopisk målestokk.
3.4 Koding
og klassifikasjon av yrker
Å kode yrkesopplysninger i folketellingene er en prosess som
først og fremst er rettet mot migrasjonsanalysen. Der trenger en å
si noe om forholdet mellom sosial og geografisk mobilitet, og forskjellige
yrkesgruppers forhold til flytting generelt. I selve lenkingsarbeidet brukes
disse opplysningene bare som hjelp og tilleggsinformasjon.
Jeg har fått lov å være med i et forsøksprosjekt
ved Digitalarkivet, der en gruppe entusiaster ved Universitetet i Bergen har
jobbet sammen på dette området. Arbeidet har vært ledet av
Arne Solli, mens Jan Oldervoll har vært hovedansvarlig for den edb-messige
delen av arbeidet. Intensjonen har vært å automatisere yrkeskodingen
i størst mulig grad, uten å introdusere nye feil underveis, for
deretter å gjøre den tilgjengelig gjennom internett. Dette arbeidet
har langt på vei lykkes gjennom et edb-program som koder 97-98% av yrkene
i en folketelling, men som krever et nokså omfattende
”avkodingsarbeid” etterpå. Nå vil imidlertid den
automatiserte kodeprosessen hele tiden forbedres, simpelthen fordi nye yrkes- og
yrkesbetegnelser kan legges inn i en liste som programmet kontinuerlig leser
igjennom. Det vil likevel alltid, ”paa Grund av Originalopgavernes
Mangelagtighed”
[75]
oppstå tilfeller der programmet må ha hjelp til å kode rett.
Først når alle yrkesvariabler har fått sin unike kode er
arbeidet fullført. Det vil i praksis si at alle de 30 variantene av
”tjenestepige” har fått én felles yrkesbetegnelse, men
samtidig beholdt relasjonen til den originale skrivemåten. Dermed kan en
hele tiden kontrollere at en har kodet riktig. Mitt ansvarsområde i
kodeprosjektet har vært folketellingen for Bergen i 1865 og 1891.
Etter at selve yrkeskodingen er gjennomført skal yrkene
klassifiseres, det vil si fordele dem i hensiktsmessige grupper. Denne
klassifikasjonen kan derimot gjøres på flere forskjellige
måter, og er derfor et stadig diskusjonsområde innenfor historisk
demografi. Kjær fant dette som den tyngste del av arbeidet med
folketellingene: ”
Oppstillingen af de forskjellige Næringsklasser
og de enkelte Individers Indordning under disse hører i det hele taget
til de vanskeligste Opgaver for Statistiken.”
[76] Kanskje var det derfor at Det
Statistiske Centralbureau la ulike klassifikasjonsprinsipper til grunn mellom de
forskjellige tellingene. Ved folketellingen i 1865 tok man ”
Hensyn til
selve Arbeidets gjenstand og
Art”.
[77] I 1875 derimot,
grupperte en også i forhold til sosial hierarkisk posisjon. Det gav et
langt mer detaljert klassifikasjonssystem både med ”Arbeidets
Karakter.....og dernæst Personernes mer eller mindre selvstændige,
overordnede eller underordnede Stilling i
arbeidet”.
[78] I 1891 og 1900
brukte en et klassifiksajonssystem som var mer i tråd med 65-tellingen.
Jeg vil i denne oppgaven benytte to ulike klassifikasjonssystemer. Det ene
er RHD sitt system, som både er et kode – og klassifikasjonsstystem,
og der yrkene er gruppert etter en sosial hierarkisk dimensjon. Det vil si den
posisjonen de hadde i samfunnet (appendiks
1).
[79] Klassifikasjonssystemet er
best tilpasset mer aggrare befolkningsområder, men er ment å
være et komplett system for hele Norges befolkning. Det er også mye
benyttet i forskningssammenheng.
[80]
Det andre systemet jeg har benyttet er en klassifikasjon fra NOS i forbindelse
med de i 1875 ”fremsatte Stemmeretsforslags virkning” på
befolkningen.
[81] Yrkene blir her
klassifisert i seks ulike kategorier, med en svært detaljert oppramsing av
hvilke yrker som hører med i hver kategori (appendiks 2). På den
måten blir også mitt klassifikasjonsarbeid mer konsekvent og
tidsriktig i forhold til oppfatninger om sosial hierarkisk inndeling.
Det
kan kanskje virke som at all kodingen har liten verdi siden det for hver eneste
kategori er mangler, tvilstilfeller og vanskeligheter. Egentlig er dette langt
fra sannheten ettersom de aller fleste opplysninger lar seg kode enkelt og greit
uten snev av tvil. En god del lar seg til og med kode maskinelt, når
forarbeidet er gjort skikkelig og en har god programvare for hånden.
Når jeg likevel fokuserer på vanskelighetene og lar resten stå
nesten uberørt, er hensikten å skape innsikt i prosessen.
Kodearbeidet er på en måte grunnmuren i ”huset” som skal
reises, og resultatet skal være mest mulig pålitelige data. Samtidig
forteller prosessen at det alltid vil være grad av skjønn som
ligger bak, og at dataene må brukes med forsiktighet.
[66]
Med koding mener jeg her å konventere data fra en tekstversjon (f.eks av
en folketelling), til en tallversjon. Data i en kodet fil gir bedre grunnlag for
lenking av personer mellom to eller flere kilder, og er lettere å bruke i
et statistikkprogram.
[67]
Se kap 3.4 og Thorvaldsen 1998: 82.
[70]
Frem mot århundreskiftet tok barn i mindre grad et patronymikon, basert
på farens fornavn, som etternavn. Se for eks. Thorvaldsen 1998: 105 og
Schiøtz 1977: 27.
[71]
Arne Solli ved UIB har laget et lite Visual-Basic program i Access som
gjør soundex-kodingen automatisk.
[72]
Fremgangsmåten med koding av fødested til kommunenivå er for
eksempel standard ved Registreringssentralen for Historiske data,
RHD.
[73]
NSD-rapport nr 27 Kommuneendringer 1838-1978. Bergen 1979. Dataene er siden
digitalisert i databasen ”Historiske Kommuner.” Se også
Aagaard Kuhnle & Sande, 1975 og Thorvaldsen 1995: 65.
[74]
Vossestrand var egen kommune fra 1868 og frem til 1964. I folketellingen i 1865
ble Vossestrand ført under Voss kommune, mens 75-tellingen har den som
egen kommune. Jeg har derfor slått dem sammen til én kommune med
kommunenummer 1235.
[79]
De mest vanlige klassifikasjonssystemene er de fra NOS, RHD og Sivert
Langholm.
[80]
Se f. Eks Thorvaldsen 1995 (doktoravhandling) og Hubbard 1997 i Historisk
Festskrift 1.
[81]
I Bergen ville det for inntektsåret 1876 blitt mellom 544 og 2401 flere
stemmeberettigede med de nye stemmeretsforslagene, men forslagene ble aldri satt
ut i live. NOS C. No. 14: 286.