CAHIER1994

Bloothooft, G. (1994). 'Automatische familiereconstructie', Cahiers VGI (Vereniging voor Geschiedenis en Informatica', 7, 9-54.

LAY-OUT EN FIGUREN NOG NIET VOLLEDIG TOT WEBDOCUMENT OMGEZET!

G. BLOOTHOOFT

AUTOMATISCHE FAMILIERECONSTRUCTIE

1 INLEIDING

Familiereconstructie is het beschrijven van de levensloop van individuen die in familierelatie tot elkaar staan. Dat is het doel van de vele (amateur) genealogen die Nederland kent. Familiereconstructie kan echter ook van groot belang zijn voor de historicus die niet alleen personen of families, maar ook ontwikkelingen binnen grotere maatschappelijke groepen onderzoekt. Immers, demografisch en sociaal-economisch onderzoek zal rijker zijn als het zich kan baseren op reconstructies van de individuele levenslopen waar eerst per persoon een samenhang in informatie is aangebracht alvorens groepsgemiddelden worden berekend. Nog rijker zal de analysekracht zijn als de grenzen van generatie en gezin worden overschreden en patronen op het nivo van de familie kunnen worden blootgelegd.

Het materiaal waarop we ons voor een familiereconstructie per individu kunnen baseren is vaak schaars en in die schaarsheid ook veelvormig. Het vereist creativiteit, zorgvuldigheid en kennis van zaken om deze schaarste optimaal te benutten. Toegankelijkheid van bronnenmateriaal is daarbij een eerste vereiste. Daarbij komt dat familiereconstructie op grote schaal - door een genealoog die een uitgebreide familie probeert te beschrijven, of de historicus die dorps, stads, of streekontwikkeling onderzoekt in het gemeenschappelijke van vele familiegeschiedenissen - uiteindelijk, in schijnbare tegenspraak, tegenover de schaarste in informatie over het individu, toch de massaliteit van het totaal aan gegevens van een familie of een dorpsbevolking komt te staan.

Een computer kan in het proces van familiereconstructie allereerst behulpzaam zijn bij het elektronisch opslaan en toegankelijk maken van informatie. Als we zorgvuldig zijn in de manier waarop we orginele teksten opslaan, zowel brongetrouw als ontrafeld in informatie-eenheden en hun onderlinge relaties, creeëren we een tot voor kort ondenkbaar gegevensbestand dat ons veel werk uit handen nemen als we in een later stadium naar bepaalde informatie op zoek zijn.

Zeer veel van de moderne informatieopslag op het gebied van bevolkings- en andere sociaal-economische gegevens vindt al elektronisch plaats. Het is de verwachting dat ook historische bronnen in hoog tempo ingevoerd zullen worden. Dat kan zeker gelden voor de genealogisch interessante bronnen als de potentiële inzet van vele duizenden amateur genealogen gebruikt zou kunnen worden. Zoiets is echter alleen zinvol als aan eisen van zorgvuldigheid, volledigheid en brongetrouwheid is voldaan. Het zal contra-productief blijken te zijn als de fundamenten van deze registratie niet goed worden overdacht en het werk later min of meer overgedaan moet worden om lacunes op te vullen.

Zijn historische gegevens eenmaal in een juiste elektronische vorm beschikbaar dan zal het raadplegen ervan in eerste instantie voor velen de enige gebruiksvorm zijn. Het is dan slechts de opslagvorm die anders is, en de daarmee gepaard gaande voordelen wat betreft toegankelijkheid, waarin onze moderne archieven zich onderscheiden van de klassieke.

Er is echter een grotere uitdaging. En dat is het ontwikkelen van gereedschappen die mogelijk worden juist omdat er elektronische vormen van archivering komen. Op het terrein van familiereconstructie kan er aan gedacht worden om belangrijke delen van de familiereconstructie automatisch door de computer te laten verrichten omdat onze levensloop zich door vrij strakke regels laat beschrijven.

Voorzover de door ons gebruikte regels en redeneerstrategie bij familiereconstructie systematisch zijn kan de computer deze taak in principe overnemen. Hiermee zijn direct ook de grenzen aangegeven van computergebruik. Onze eigen creativiteit en inzet van kennis is veruit superieur ten opzichte van de vooralsnog rigide computer en het is niet te verwachten dat dat op korte termijn, zo ooit, anders zal worden. De kracht van het menselijk denken ligt, heel algemeen, waarschijnlijk juist in het afwijken van regels wanneer we vinden dat de omstandigheden dat billijken.

Dat wil niet zeggen dat we de computer niet in kunnen zetten bij redeneerprocessen. Uitzonderingen op regels komen uiteindelijk relatief zelden voor en zeer veel reconstructiearbeid kan de computer derhalve uitstekend voor ons doen. Op verschillende punten is onze eigen creativiteit en inzicht echter onontbeerlijk. Als we er in slagen een goed samenspel te ontwikkelen tussen het volgens regels redeneren van de computer en ons eigen afwijken daarvan, behouden we de kwaliteit van de familiereconstructies maar besparen ons met de computer veel werk.

Dit artikel brengt op een gestructureerde wijze het proces van familiereconstructie in kaart, en wel zodanig dat de methode middels een computerprogramma geimplementeerd kan worden. Automatische familiereconstructie is daarmee een fascinerende exploratie en ontrafeling van menselijk redeneren in een gebied dat enerzijds een duidelijke structuur biedt, de menselijke levensloop, en anderzijds in het beschikbare materiaal uitdagend onvolledig en schaars is. Het is een vruchtbaar terrein om te zien waar we kunnen komen met wat kunstmatige intelligentie genoemd kan worden. We moeten dan echter niet vergeten dat de door ons aan de computer gegeven intelligentie in de vorm van regels beperkt is en dat de werkelijke intelligentie steeds van de gebruiker moet komen in de beoordeling van resultaten.

Deze studie naar familiereconstructie met de computer kan alleen vruchtbaar zijn in een dubbele praktische ervaring: die van de mogelijkheden van de huidige generatie computers en die van de onvoorstelbare verscheidenheid aan historisch bronmateriaal. Dit werk is de neerslag van de daadwerkelijke ontwikkeling van een systeem voor familiereconstructie. Dit systeem, Genesis (GENealogisch ExpertSysteem en InformatieSysteem), vormt de rode draad van dit artikel. Het systeem laat zien dat familiereconstructie met de computer (PC) mogelijk is mits de gebruiker op specifieke momenten eigen inzichten kan toevoegen.

Genesis laat op transparante wijze zien hoe we met stapsgewijze gegevensverwerking familiereconstructie kunnen realiseren. Eindresultaten worden in Genesis per persoon weergegeven in een dossier waarin alle op die persoon betrekking hebbende informatie is opgenomen. Door bij te houden op grond van welke originele gegevens bepaalde afleidingen zijn gemaakt, kunnen in dit dossier alle relevante originele teksten (plus bronvermeldingen) meegegeven worden. Omdat per persoon familierelaties in het dossier worden vastgelegd is het mogelijk om automatisch genealogiën en kwartierstaten te genereren (en uit te voeren).

In deze studie wordt duidelijk gemaakt op welke principes Genesis is gebaseerd. Het is een verantwoording van het systeem. Genesis is zeker niet af en zal wellicht altijd in ontwikkeling blijven. Niettemin biedt Genesis een raamwerk waarbij we aan de ene kant kunnen leren hoe we genealogische afleidingen kunnen maken onder de conditie van schaars, niet altijd betrouwbaar materiaal, terwijl er aan de andere kant een systeem beschikbaar is dat al in de huidige fase een behulpzaam gereedschap kan zijn voor de historisch onderzoeker.

II DE INTERNATIONALE ONTWIKKELING

Alhoewel er in Nederland tot nu toe weinig aandacht is geweest voor automatische familiereconstructie, is dat internationaal gezien anders. Reeds in de 60-er jaren werd begonnen met het ontwikkelen van methoden voor het automatisch koppelen van persoonsgegevens op naam: 'nominal record linkage'. Het interessante van die periode is dat onderzoekers vanuit verschillende disciplines (de historische, statistische, computer, medische en genetische wetenschappen) samenkwamen en de basis legden voor een nieuw werkterrein. De mijlpaal Identifying People in the Past (Wrigley, 1973) markeerde vervolgens het moment dat historici zich verder zelfstandig concentreerden op de bijzondere problemen die gegevenskoppeling in historische context met zich meebrengt. Als we echter recente themanummers van Historical Methods (1992, 25/4) en History and Computing (1992, 4/1) over 'record linkage' doorlezen dan valt eigenlijk op dat er sindsdien maar beperkte vooruitgang is gemaakt. Weliswaar zijn er redelijk goede algoritmen ontwikkeld voor naamstandaardisatie maar er is weinig nieuws te melden met betrekking tot het koppelingsproces zelf.

In het algemeen wordt er vanuit gegegaan dat er N verschillende gegevensbestanden beschikbaar zijn en dat we moeten onderzoeken of persoon A uit bestand I dezelfde zou kunnen zijn als persoon B uit bestand J. Verreweg de meeste aandacht wordt in de literatuur besteed aan problemen die ontstaan door spellingsverschillen in de voor- en familienamen van A en B (bv Bouchard en Pouyez, 1980). De indruk wordt gewekt dat als dat probleem nu maar opgelost is dat dan de grootste hindernis genomen is. In ieder geval wordt er maar sporadisch ingegaan op een meer fundamentele strategie van gegevenskoppeling (waarvan de spellingsstandaardisatie een onderdeel is). Gunstige uitzonderingen daarop zijn Wrighley en Schofield (1973), Schofield (1992) van de Cambridge groep, Thaller (1987), en Bouchard (1992) van SOREP, Canada. De Cambridge groep gaat diep in op de strategie bij het koppelen van doop-, trouw- en begraafgegevens, Thaller laat de gebruiker de nodige vrijheid om koppelingsregels te definiëren, terwijl het Canadese werk problemen aanvat bij het koppelen van weinig informatieve volkstellinggegevens (waarbij de naam inderdaad de belangrijkste informatie is). Het SOREP lijkt overigens op dit moment de enige plaats waar op werkelijk zeer grote schaal aan historische gegevenskoppeling wordt gewerkt (honderdduizenden tot miljoenen records).

Overigens valt op dat de ontwikkelde systemen vaak zeer bepaald worden door de onderzoeksprojecten waarvoor ze ontwikkeld zijn. Daarmee drukt een lokale situatie, de beschikbare registers en de daarin opgenomen gegevens, vaak een groot stempel op de keuzes die gemaakt worden. Dit bemoeilijkt de vergelijking van systemen en het belemmert de verdere theoretische ontwikkeling op het gebied van gegevenskoppeling.

Enige fundamentele vragen met betrekking tot de strategie van gegevenskoppeling op naam waarop helaas zelden expliciet wordt ingegaan zijn:

wat zijn de beste gegevensstructuren waarbinnen gegevenskoppeling kan plaatsvinden,
welke informatie wordt met welk gewicht bij het koppelingsproces gebruikt,
welke koppelingscriteria worden gehanteerd,
hoe wordt de volgorde van te onderzoeken en te koppelen records bepaald,
hoe wordt de kwaliteit van een koppeling gemeten,
is er een mogelijkheid voor al dan niet automatische herziening van gelegde koppelingen (dwz is er iteratie mogelijk),
hoe wordt aanvullende informatie verwerkt in het bijzonder als deze informatie in strijd is met al gelegde koppelingen.

In dit artikel zal op de meeste van deze aspecten worden ingegaan. Daarnaast zal getracht worden om duidelijk te maken welke keuzes in belangrijke systemen worden gemaakt en welke de aanpak is waarvoor in Genesis is gekozen.

III NADERE POSITIEBEPALING

Alvorens we ons verdiepen in de ontwikkeling van automatische familiereconstructie moeten we ons afvragen wat de precieze randvoorwaarden en doelen van de studie zijn. Daarbij stuiten we op vier essentiële vragen:

over welke informatie kunnen we electronisch beschikken
in hoeverre is het gewenst om de computer beslissingen te laten nemen, wat blijft de rol van de gebruiker/onderzoeker?
op welke schaal willen we familiereconstructie onderzoeken, binnen al voorgeselekteerde informatie over een enkele familie of uit ongeselekteerde informatie uit een stad, dorp of streek?
willen we een commercieel product ontwikkelen of een wetenschappelijk gereedschap, wat is de doelgroep?

(1) Welke informatie

We zouden wellicht in eerste instantie geneigd zijn te zeggen dat we moeten streven naar maximalisatie van elektronische opname van informatie. Ideaal is wellicht het opnemen van orginele teksten, maar dan zijn we er nog niet. In de teksten moet worden aangegeven welke preciese informatieve betekenis elk woord heeft. Dat vereist het labelen van relevante woorden (bijvoorbeeld via Standard Generalized Markup Language). Het grote voordeel van zo'n aanpak dat een tekst maar ‚‚n keer hoeft te worden opgenomen en dat het aantal labels in principe onbeperkt kan zijn. Mogelijk zou dit in sterk gestructureerde teksten (zoals in akten van de Oud Burgelijke Stand) automatisch kunnen gebeuren. Gezien de huidige stand van zaken lijkt het echter vooralsnog verstandig om per bron de relevante informatie van te voren te definiëren en de informatie gestructureerd in te voeren. Daarnaast zou in relevante gevallen de orginele tekst apart moeten kunnen worden opgenomen. In Genesis streven we naar het gestructureerd opnemen van alle genealogisch relevante informatie uit zoveel mogelijk verschillende soorten bronnen. Per bron moet derhalve een gegevensdefinitie worden gemaakt.

Overigens raakt dit aan een veel algemener probleem: de wijze van elektronisch opslaan van genealogische gegevens in de Nederlandse archieven. Ook daar lijkt een brongerichte opslag het meest relevant. En ook daar staat zeker voor de veel geraadpleegde bronnen ter discussie welke gestructureerde informatie moet worden opgeslagen (als we vrije tekstinvoer buiten beschouwing laten). Landelijke richtlijnen op dit punt zouden zeer gewenst zijn maar ontbreken geheel. Overigens zullen archieven om begrijpelijke budgettaire redenen bezwaren kunnen hebben tegen een grootschalige integrale, dus dure, invoer van gegevens. Men zal de neiging hebben te volstaan met naamregistratie en verwijzing naar de akte waarin de naam optrad.

(2) Welke rol voor de computer

In de gebruikerspraktijk is de computer toch vooral een moderne kaartenbak. Genealogische informatie kan op snelle wijze op naam, plaats en datum (enz.) worden worden opgezocht. Als ontsluitingsgereedschap is de computer daarmee van onschatbare waarde. Voor genealogen zijn er speciale genealogische programma's die mogelijkheden bieden om gegevens rond een persoon te verzamelen, er op te selekteren, en het geheel uit te voeren als stamboom of kwartierstaat. Persoonsgegevens kunnen via een algemeen standaardformaat eenvoudig getransporteerd worden. De aanpak in deze programma's is over het algemeen persoongericht ofwel doelgericht en niet brongericht. Een overlijdensakte wordt bijvoorbeeld niet integraal ingevoerd, maar de gebruiker distilleert uit de akte gegevens die aan dossiers van personen worden toegevoegd.

In bestaande genealogische programma's moeten koppelingen van gegevens door de gebruiker zelf worden gelegd. Recent zijn enige programma's voor de PC beschreven (Atack et al., 1992; Vetter et al., 1992)) waarbij naamstandaardisatie en naamfiltering gebruikt wordt om een voorselectie van gegevens aan te brengen (computer-assisted record linkage). Ook in meer geavanceerde systemen (Thaller, 1986) wordt bewust gekozen voor grote gebruikersparticipatie in het systeem.

Het argument voor gebruikersparticipatie is dat het regelmatig voorkomt dat er uit alternatieven moet worden gekozen en dat de uiteindelijke keuze door de gebruiker moet worden gemaakt omdat de computer onmogelijk alle argumenten kan gebruiken die de genealoog kan hanteren. Dit argument is zeker valide, maar doet geen recht aan de constatering dat er ook heel veel gegevens zijn waarbij de koppeling eenduidig is en buiten discussie staat. De kunst is uiteraard de juiste middenweg te vinden tussen automatische koppeling en gebruikersinterventie.

In Genesis wordt in eerste instantie geprobeerd om zo veel mogelijk beslissingen door de computer te laten nemen, terwijl de gebruiker de mogelijkheid krijgt om achteraf te corrigeren of zelf beslissingen te nemen in die gevallen waar de computer zich daar niet toe in staat achtte. De uitdaging van Genesis is het onderzoeken van grenzen: hoe kunnen we de een computer instrueren opdat een maximaal aantal correcte koppelingen van gegevens wordt gerealiseerd.

(3) Welke schaal

Familiereconstructie kan zich beperken tot een vooraf geselekteerde hoeveelheid informatie over bijvoorbeeld een enkele familie. Dit kan voor een gebruiker zeer nuttig zijn. Zo kan men zich voorstellen dat er reeds enige tijd gewerkt is aan de opbouw van een familiearchief en dat er reeds een eerste reconstructie heeft plaatsgevonden. In het ideale geval wordt dan steeds na de invoer van nieuwe, aanvullende, gegevens door de computer automatisch aangegeven voor welke personen dit een aanvulling op het dossier betekende. De automatisch uitgebreide dossiers kunnen direct worden ingezien. Bij onjuiste koppelingen corrigeert de gebruiker waar nodig. Voor de ontwikkeling van procedures voor automatische gegevenskoppelingen zijn kleine familiebestanden heel waardevol als testmateriaal. Het is meestal bekend welke de familierelaties zijn. De door de computer geproduceerde resultaten kunnen dan met de handmatige afleidingen worden vergeleken en bij verschil kan bestudeerd worden waar de procedures verbeterd dienen te worden. Betrekkelijk kleine bestanden (tot 5000 persoonsvermeldingen) hebben voorts als voordeel dat ze overzichtelijk zijn en bovendien relatief snel zijn door te rekenen (op een PC-486).

In principe kan elke schaalvergroting gezien worden als een grotere verzameling families. We denken daarbij aan het genealogisch integraal opnemen van allerlei bronnen uit een bepaalde gemeente. Toch is dit niet equivalent aan een eenvoudige optelling van de reconstructies per familie afzonderlijk. De schaalvergroting brengt specifieke problemen met zich mee. In geval van vermeldingen waar de familienaam ontbreekt is het nu niet direct duidelijk tot welke familie de persoon behoort. Ook geheel verschillende families met dezelfde familienaam moeten nu onderscheiden worden op grond van andere informatie dan de familienaam. Een interessant verschijnsel is daarbij overigens dat, als we ons tot een vrij gesloten gemeenschap beperken, er contemporain altijd ook wel een belang was om personen te onderscheiden. De vermeldingen zijn -binnen een bepaalde gemeenschap- vaak eenduidig te interpreteren. De kunst is om dit de computer ook te laten doen.

Nog een stap verder en we komen tot gegevensverzamelingen uit een aantal verschillende dorpen. Dan wordt het van steeds meer belang om ook woonplaatsinformatie in de analyses te betrekken. We moeten ons echter realiseren dat we, in een interval van een eeuw bijvoorbeeld, over tien- tot honderdduizenden persoonsvermeldingen per dorp beschikken. Op de PC zijn we op dit moment dan wel aan de grenzen van het technisch mogelijke. Het Canadese SOREP gaat, met krachtige computers, nog verder en zal de komende jaren werken aan een analyse van de gehele bevolking van Qu‚bec vanaf 1800. Daar zijn alleen al 4.5 miljoen huwelijksakten mee gemoeid (Bouchard, 1992).

(4) Welke doelgroep

Met nadruk dient te worden gesteld dat Genesis een prototype is. We proberen via Genesis te ontdekken en te laten zien hoe een volgende generatie genealogische software eruit zou kunnen zien. Daarom is Genesis voortdurend in ontwikkeling en geen commercieel product. Wel is bewust gekozen voor een PC platform om eventueel tot brede inzetbaarheid te kunnen komen.

Aan de hand van pilootprojekten worden testen uitgevoerd die ons leren waar het systeem verbeterd kan en moet worden. Het is tenslotte de weerbarstige en vaak ook onvoorspelbare praktijk die de beste leerschool is. De meest recente en belangrijkste test betrof familiereconstructies van de armen van Aarle-Rixtel in de periode 1760-18101. Op basis van integraal opgenomen doop-, trouw-, begraafboeken, armenregisters en tienjaarlijks overgenomen hoofdgeldkohieren, die samen meer dan 20.000 persoonsvermeldingen bevatten, werden de reconstructies gerealiseerd. Specifieke ervaringen leidden tot vele verbeteringen in Genesis en natuurlijk waren de resultaten niet foutloos. Ondanks de noodzakelijke correcties op de resultaten, konden de familiedossiers in korte tijd geproduceerd worden.

Samenvattend

In Genesis wordt gewerkt met genealogisch, brongericht geregistreerde gegevens. De computer wordt gebruikt om zo veel mogelijk gegevenskoppelingen automatisch te leggen. De procedures moeten zowel werken voor beperkte verzamelingen familie-gebonden materiaal als voor integraal verzameld, genealogisch georienteerd materiaal.

IV HET RECONSTRUCTIE PROCES

Familiereconstructie is zonder twijfel een complex proces. In de volgende paragrafen zullen we dit proces stap voor stap behandelen zoals het in Genesis is geimplementeerd. Het is in het bestek van dit artikel niet mogelijk om op alle onderdelen in detail in te gaan. Niettemin wordt gehoopt dat de filosofie van het systeem duidelijk wordt.

Op hoofdlijnen doorloopt de automatische familiereconstructie de volgende fasen. Schuingedrukt zijn de fasen waarbij de gebruiker een rol kan, maar behalve bij de invoer niet moet spelen, de overige fasen zijn volledig automatisch.

Invoer
Standaardisatie gegevensstructuur
Standaardisatie gegevens
Koppeling
Dossiervorming
Controle (zonodig terug naar 4)
Rapportage
Gebruikers interventie (zonodig terug naar 4)

Deze fasen zijn direct zichtbaar in Genesis omdat zowel voor de invoer, de gestandaardiseerde gegevensstructuur en de dossiervorming gescheiden verzamelingen bestanden worden gebruikt: de invoerbestanden, de analysebestanden en de dossierbestanden. Elk type bestanden heeft zijn specifieke gegevensstructuren, toegesneden op de functies die de bestanden in het reconstructieproces hebben. Door deze bestandsorganisatie onderscheidt Genesis zich fundamenteel van andere systemen.

Zeer in het kort geven we een overzicht van de hoofdlijnen. In de invoerfase kan de orginele informatie in diverse invoerbestanden worden overgebracht. Deze bestanden worden in het reconstructieproces nooit gewijzigd. Alle te gebruiken informatie uit deze brongerichte invoerbestanden wordt vervolgens omgezet naar de persoongerichte analysebestanden. Deze stap impliceert een standaardisatie van de gegevensstructuur en wordt in andere systemen zelden gemaakt. Vervolgens worden de gegevens zelf genormaliseerd: de spelling van namen wordt gestandaardiseerd en aan de analysebestanden toegevoegd (standaardisatie fase). Dan volgt een groepering van gegevens waarbij gegevensrecords van eenzelfde persoon in de analysebestanden eenzelfde identificatiecode krijgen (koppelingsfase). Tenslotte worden de gegevens van een gepostuleerd persoon samengenomen en in nieuwe bestanden ondergebracht, de dossierbestanden (dossiervormingsfase). Door de aard van de gevolgde weg van familiereconstructie kunnen pas als er dossiers zijn nadere controles op complexe relaties tussen personen plaatsvinden. Dat kan leiden tot een aanpassing van de groepering (gewijzigde identificatiecodes in de analysebestanden) en een aantal nieuwe dossiers (met het verwijderen van de oude). Dit werken met dossiers als condensatie van koppelingshypothesen is een centrale eigenschap van Genesis. De uiteindelijke dossiers kunnen op allerlei manieren uitgevoerd worden: per dossier, kwartierstaat, stamboom, of verzameling stambomen, op beeldscherm, printer of in een tekstfile (rapportage fase). Op basis van deze overzichten kan de gebruiker besluiten dat er onjuiste koppelingen zijn gemaakt en hij kan deze herstellen (gebruikers interventie), waarna wederom een nieuwe groepering en dossiervorming plaatsvindt.

IV.1 INVOER

Het basismateriaal voor familiereconstructies is vrijwel altijd alleen in geschreven vorm beschikbaar. De eerste taak is om dit basismateriaal in te voeren in de computer. Dat gebeurt op structurele wijze in van te voren gedefinieerde gegevensbestanden. Daarnaast kan de orginele tekst worden opgenomen.

In de gegevensstructuur van een invoerbestand zal vastgelegd moeten worden welke type informatie kan worden opgenomen. Dat roept de vraag op of we wel in staat zijn om te voorzien welke informatie beschikbaar kan zijn. Per brontype moet derhalve een nauwkeurige informatieanalyse worden uitgevoerd. Tevens betekent het dat we voor elk brontype een nieuw bestand moeten maken met een op die bron toegespitste gegevensstructuur.

In Genesis zijn in totaal 11 invoerbestanden beschikbaar die het mogelijk moeten maken om op een zinvolle manier vrijwel alle belangrijke typen genealogisch materiaal in te voeren. Ze omvatten achtereenvolgens geboorte-, huwelijks- en overlijdensakten van de Oud Burgelijke Stand, kerkelijke doop-, trouw- en begraafboeken, schepentrouwboeken, impostregisters voor trouwen en begraven, overige bronnen (bijvoorbeeld notariële akten, weeskamerakten, bevolkingsregisters, belastingkohieren, militiegegevens etc.) en directe persoonsgegevens (eventueel zelfs zonder bronvermelding). De gegevensstructuur van deze bestanden is gebaseerd op versies van de oorspronkelijke bronnen uit verschillende delen van Nederland. Het zou ideaal zijn als er met betrekking tot de gegevensstructuur van de belangrijkste bronnen een landelijke standaard zou komen. Dit zou de uitwisselbaarheid van gegevens zeer kunnen bevorderen. Tenslotte is er in Genesis naast deze gegevensbestanden een archiefbestand waarin de bronnen waaruit geput is expliciet beschreven kunnen worden, zodat bij elk gegeven achterhaalbaar is uit welke bron en welk archief het afkomstig is. Figuur 1 geeft het entiteitrelatiediagram van de invoerbestanden (met dank aan Drs T. Schijvenaars voor dit en volgende diagrammen). Voor de gedetailleerde gegevensstructuren van deze bestanden en de nog te behandelen bestanden wordt verwezen naar de beschrijving in Schijvenaars (1993).

De omzetting van geschreven tekst naar informatie in gestructureerde gegevensbestanden impliceert dat de gebruiker zelf zal moeten beslissen welk deel van de orginele tekst de informatie bevat die in het gegevensbestand kan worden opgenomen. Dat is niet altijd triviaal: Is bij de naam Jan Hendriks, Hendriks een patroniem of een familienaam? Ook kan een gebruiker typfouten maken bij de invoer. Kortom, reeds in deze eerste fase moeten we ons bewust zijn van de beperkingen die we aan het materiaal opleggen en van de fouten die er in kunnen sluipen. Om het aantal invoerfouten te beperken voert Genesis controles uit op de interne consistentie van de informatie. Een inconsistent record wordt niet geaccepteerd voordat het gecorrigeerd is door de gebruiker.

In Genesis is ervoor gekozen om gestructureerde gegevens zo veel mogelijk brongetrouw op te nemen. Dat geldt in ieder geval voor de namen van de betrokkenen. Daarnaast bestaat er de mogelijkheid om ook de orginele tekst van de betrokken akte integraal op te nemen in afzonderlijke (relationeel gekoppelde) bestanden. Dat geeft de mogelijkheid om in latere fasen van de analyse altijd weer op de oorspronkelijke tekst terug te vallen.

De invoerbestanden kunnen allemaal uitgebreid worden met nieuw materiaal, ze kunnen gecorrigeerd worden wanneer er invoerfouten zijn geconstateerd en er kan in gezocht worden naar gewenste orginele informatie. Ze staan echter op zichzelf en los van alle overige bestanden die ontwikkeld worden tijdens analyses en reconstructies. Dit is een uiterst belangrijk kenmerk van Genesis: de gegevensverwerking vindt modulair plaats. Vanuit deze eerste module van gegevensinvoer is doorvoer van informatie naar andere analyses mogelijk, het is echter onmogelijk dat omgekeerd door analyses de invoerbestanden gewijzigd worden. Op deze manier blijft de gegevensverwerking transparant en integer.

Voorzienbare verbeteringen op dit invoernivo zijn dat de veldlengte van gegevens variabel kan worden (is nu gefixeerd), terwijl het ook ideaal zou zijn als gebruikers zelf aanvullende velden zouden kunnen definiëren. Als het informatie betreft die niet voor de familiereconstructie zelf nodig is (belastinggegevens bijvoorbeeld) zal dit Genesis niet hinderen. Zeker voor onderzoek waarbij familiereconstructie een hulpmiddel is bij het ordenen van andersoortige gegevens kan dit van belang zijn. In de huidige versie van Genesis moet in zo'n geval de software voor invoer van gegevens en de uitvoer van rapporten enigszins worden aangepast, afhankelijk van de wensen van de gebruiker.

Samenvattend

Genesis gebruikt 11 gegevensbestanden voor gestructureerde invoer van genealogische gegevens. Parallel daaraan zijn er 11 (relationeel) gekoppelde bestanden waarin de orginele tekst van de akte kan worden opgenomen. De origine van de gegevens komt in een (relationeel) gekoppeld bestand waarin de bronnen beschreven kunnen worden. Naamgegevens worden brongetrouw ingevoerd.

Voorbeeld

Gestandaardiseerde trouwakte uit de RK kerk in Akersloot Record: 11
Opgemaakt op 25 april 1756 [RAH, trouwboek RK kerk, cat.nr.10]

Op 25 april 1756 trouwden in Akersloot
Man	Pieter Jansse Cleef uit Schermeer
Vrouw	Guertje Claes uit Schermeer
Getuigen	Grietje Jans Marijtje Pontse

Originele tekst:
1756 25 Apr. Pieter Jansse Cleef cum Guertje Claes Scher testes/ Grietje Jans et Marijtje Pontse

IV.2 STANDAARDISATIE VAN DE GEGEVENSSTRUCTUUR

Voordat er sprake kan zijn van het koppelen van gegevens moeten we het historisch materiaal, dat brongericht is ingevoerd, omzetten in een vorm die onderlinge vergelijking mogelijk maakt. In Genesis betekent dit (1) dat we het beschikbare materiaal, dat in 11 verschillende gegevensbestanden is terechtgekomen, samenbrengen in nieuwe, gestandaardiseerde, persoongerichte bestanden en (2) dat we moeten zoeken naar een manier om verschillende schrijfwijzen van de gegevens zelf te standaardiseren. In deze paragraaf behandelen we de omzetting van brongerichte bestanden naar gestandaardiseerde, persoongerichte bestanden.

Dat we de oorspronkelijke gegevens omzetten naar een nieuwe structuur is niet triviaal. Genesis wijkt daarin van andere systemen af. De gedachte erachter is dat als we bijvoorbeeld een trouwakte hebben met bruid, bruidegom en de vier ouders van het bruidspaar, dat we dan informatie hebben over zes personen. Per persoon is er informatie beschikbaar over relaties met de andere personen, over de leeftijd, woonplaats, geboorteplaats enzovoort. Als we al deze informatie expliciet opslaan in verstandig gekozen, nieuwe bestanden dan brengen we de informatie in een vorm waarbij het voor het gebruiken van die informatie niet meer noodzakelijk is om te weten uit welke bron de informatie afkomstig is. Uiteraard zullen we de bronidentificatie wel meenemen, maar essentieel is dat niet voor het volgende reconstructieproces. Daarmee vermijden we de complexe vergelijkingen die bijvoorbeeld de Cambridge school (Wrighley en Schofield, 1973) moet maken tussen informatie over een persoon uit doop,- trouw-, en begraafakten.

Door de omzetting van de informatie naar een gestandaardiseerde, persoongerichte structuur, verandert de algemene karakterisering van het koppelingsproces. Algemeen wordt dat beschreven als het onderzoek of een vermelding van persoon A in bestand I gekoppeld mag worden met een vermelding van persoon B in bestand J. In de gestandaardiseerde structuur is er nog maar sprake van ‚‚n bestand en derhalve wordt het koppelingsproces dan beschreven als onderzoek of de gestandaardiseerde gegevens van persoon A in overeenstemming zijn met de gestandaardiseerde gegevens van persoon B.

Het werken met een gestandaardiseerde gegevensstructuur heeft tot gevolg dat de gegevenskoppeling in een vorm wordt gebracht die universeel is. Alles wat er verder over koppeling wordt gezegd hangt niet meer af van de oorsprong van de gegevens. Dat kan een algemene theorie over gegevenskoppeling dichterbij brengen.

In Genesis wordt voor alle personen die in een bepaalde akte voorkomen automatisch informatie afgeleid over de naam, de geboorte (en ouders), het huwelijk (en partner(s)), het overlijden en over kinderen. Deze informatie wordt opgeslagen in nieuwe, (relationeel) gekoppelde bestanden die we de analysebestanden noemen. Ze hebben achtereenvolgens betrekking op naam (inclusief algemene gegevens zoals sexe, beroep en geloof maar ook de bronidentificatie), geboorte, huwelijk, overlijden, kinderen (redundant met geboortebestand maar procedureel praktisch) en het eventueel getuige zijn (of genoemd zijn) bij iemand. Figuur 2 geeft het entiteitsrelatiediagram van de analysebestanden.

Hoe gaat de automatische omzetting van brongerichte informatie naar een gestandaardiseerde vorm nu in zijn werk? Stel dat we een geboorteakte voor ons hebben. De vraag is welke informatie deze akte precies bevat. Dat zijn niet alleen de namen van kind en ouders en een datum. We weten impliciet ook iets over het huwelijk van de ouders (v¢¢r de geboortedatum), over het interval in jaren waarin de ouders zelf geboren zouden moeten zijn, en over de intervallen in jaren waarin alle drie personen overleden moeten zijn. Voor de bepaling van de laatste intervallen moeten we wel enige aannamen doen, zoals de jongste leeftijd waarop een vrouw een kind kan krijgen en de maximale leeftijd van een mens.

In de analysebestanden zijn tijdsintervallen heel belangrijk. Per persoon stellen we vast na welke datum hij/zij geboren moet zijn en voor welke (meestal andere) datum dat moet hebben plaatsgevonden. Dit markeert het tijdsinterval van de geboorte. Dat kan ruim zijn, bijvoorbeeld na 1761 en voor 1793, maar ook nauw als we de leeftijd van een persoon kennen: bijvoorbeeld na 1775 en voor 1777, of zelfs precies: op 13 februari 1877, uit een geboorteakte. Hetzelfde gebeurt met intervallen voor het overlijden en met intervallen voor het huwelijk. Het huwelijk wordt uitgesplitst naar het tijdsinterval waarin het huwelijk moet zijn gesloten en het tijdsinterval waarin het huwelijk moet zijn geeindigd.

Naast direct beschikbare informatie gebruikt, zoals gezegd, Genesis enige aannamen om afleidingen te maken. Een aanname, of regel, is bijvoorbeeld dat er een maximale leeftijd is. De gebruiker kan hiervoor zelf een getal, bijvoorbeeld 100 jaar, geven. In totaal zijn er 8 van dit soort regels waarvoor de gebruiker de waarden kan geven of wijzigen. Deze regels zijn nauw verwant met een aantal van de negen regels die Wrigley en Schofield (1973) geven. Er is echter een essentieel verschil. In Genesis worden de regels gebruikt om informatie over een persoon in ‚‚n bepaalde vermelding nader uit te werken. Voor Wrigley en Schofield zijn het regels die direct gebruikt worden om potentiële koppelingen te controleren. Zo verlangen Wrigley en Schofield bijvoorbeeld dat het verschil in data van twee records in overeenstemming moet zijn met gegeven leeftijden van personen. In Genesis wordt uit een vermelde leeftijd een geboortedatum (met marge) vastgesteld. Later wordt dan afgeleid dat personen waarvan de tijdsintervallen van geboorte niet overeenstemmen verschillend moeten zijn. Dit procedurele verschil verheldert het koppelingsproces aanzienlijk.

Naast de datumregels zijn er een aantal regels waarin globale indicaties worden afgeleid over de plaats van geboorte, trouwen of overlijden van genoemde personen. We geven hier alleen de datumregels (tussen rechte haken staan de minimale en maximale waarde die een gebruiker aan de regel kan toekennen):

datumregels

minimum beroepsleeftijd [0,30]	6 jaar
minimumleeftijd bij krijgen eigen kind [10,20]	17 jaar
minimumleeftijd bij tekenen akte (overig) [0,110]	20 jaar
maximum leeftijd bij 1e huwelijk [50,110]	60 jaar
maximum leeftijd [80,110]	100 jaar
maximum leeftijdsverschil partners [0,50]	30 jaar
maximum leeftijdsverschil moeder - kind [10,60]	50 jaar
maximum leeftijdsverschil vader - kind [10,110]	70 jaar

De volgende uitwerking van een huwelijksakte voor de Oud Burgelijke Stand geeft een voorbeeld van de structuurstandaardisatie en gegevensuitwerking. Het betreft een trouwakte, opgemaakt te Ruinerwold op 24 december 1827. Eerst volgt de gestandaardiseerde vorm van de orginele akte zoals die door Genesis wordt gemaakt:

Gestandaardiseerde trouwakte uit de Oud Burgelijke Stand van Ruinerwold opgemaakt op 24 december 1827 [RAA, huwelijksakten, OBS]

Op 24 december 1827 zijn te Ruinerwold getrouwd

Hendricus Veuger, jongman, van beroep koopman, oud 41 jaren, geboren en wonende te Meppel,
meerderjarige zoon van Pieter Veuger, overleden, en van Geesje Broekhuizen, overleden,
en
Neeltje Blaauboer, jongedochter, zonder beroep, oud 18 jaren, geboren en wonende te Zijpe,
minderjarige dochter van Gerrit Blaauboer, wonende te Zijpe, van beroep koopman en IJda 't Hart.

Getuigen:

Jan Veuger, van beroep zilversmid, oud 44 jaren, wonende te Meppel, broeder

Pieter Bot, van beroep koopman, oud 40 jaren, wonende te Meppel, bekende

Berend Heines, van beroep onderwijzer, oud 38 jaren, wonende te Meppel, bekende

Hendrik Kuper, van beroep schoolmeester, oud 41 jaren, wonende te Ruinerwold, bekende.

Zie overlijdens data ouders en grootouders van Hendricus Veuger
in bijlagen onder Legerstede geld begraven Geref kerk Meppel.

Uit deze trouwakte worden eerst de relevante personen bepaald. Getuigen die genoemd staan als 'bekende', 'buur' etc. worden niet in de analyse betrokken.

Persoonsvermeldingen

man	Hendricus Pieter Veuger
vrouw	Neeltje Gerrit Blaauboer
vader man	Pieter Veuger
moeder man	Geesje Broekhuizen
vader vrouw	Gerrit Blaauboer
moeder vrouw	IJda t Hart
getuige 1	Jan Veuger

Dan worden alle relaties tussen personen vastgelegd. Merk hierbij op dat Genesis volledig persoongeoriënteerd te werk gaat, door alle relaties twee maal op te nemen (ten opzichte van de man en ten opzichte van de vrouw, ten opzichte van een ouder en ten opzichte van een kind etc.). Dit geeft redundante informatie maar is essentieel voor de reconstructie.

Relaties tussen personen

Hendricus Veuger	is echtgenoot van Neeltje Blaauboer
Neeltje Blaauboer	is echtgenoot van Hendricus Veuger
Pieter Veuger	is echtgenoot van Geesje Broekhuizen
Geesje Broekhuizen	is echtgenoot van Pieter Veuger
Gerrit Blaauboer	is echtgenoot van IJda t Hart
IJda t Hart	is echtgenoot van Gerrit Blaauboer

Pieter Veuger	is ouder van Hendricus Veuger
Geesje Broekhuizen	is ouder van Hendricus Veuger
Gerrit Blaauboer	is ouder van Neeltje Blaauboer
IJda t Hart	is ouder van Neeltje Blaauboer

Hendricus Veuger	is kind van Pieter Veuger
Hendricus Veuger	is kind van Geesje Broekhuizen
Neeltje Blaauboer	is kind van Gerrit Blaauboer
Neeltje Blaauboer	is kind van IJda t Hart

Jan Veuger	is getuige bij Hendricus Veuger2
Jan Veuger is getuige bij Neeltje Blaauboer

Tenslotte worden datumintervallen en (mogelijke) plaats van geboorte, huwelijk en overlijden afgeleid:

Afleidingen over geboortedatum en plaats

Hendricus Veuger	is tussen 1785 en 1787geboren	te MEPPEL
Neeltje Blaauboer	is tussen 1808 en 1810 geboren	te ZIJPE
Pieter Veuger	is tussen 1687 en 1770 geboren	mogelijk te MEPPEL
Geesje Broekhuizen	is tussen 1707 en 1770 geboren	mogelijk te MEPPEL
Gerrit Blaauboer	is tussen 1687 en 1793 geboren	mogelijk te ZIJPE
IJda t Hart	is tussen 1707 en 1793 geboren	mogelijk te ZIJPE
Jan Veuger	is tussen 1782 en 1784 geboren	mogelijk te MEPPEL

Afleidingen over huwelijk en plaats

Hendricus Veuger	is op 24-12-1827 getrouwd	wonende te MEPPEL
Neeltje Blaauboer	is op 24-12-1827 getrouwd	wonende te ZIJPE
Pieter Veuger	is voor 1786 getrouwd	mogelijk te MEPPEL
Geesje Broekhuizen	is voor 1786 getrouwd	mogelijk te MEPPEL
Gerrit Blaauboer	is voor 1809 en minstens tot 1827 getrouwd	mogelijk te ZIJPE
IJda t Hart	is voor 1809 en minstens tot 1827 getrouwd	mogelijk te ZIJPE

Afleidingen over overlijden en plaats

Hendricus Veuger	is tussen 1827 en 1886 overleden	mogelijk te MEPPEL
Neeltje Blaauboer	is tussen 1827 en 1909 overleden	mogelijk te ZIJPE
Pieter Veuger	is tussen 1784 en 1827 overleden	mogelijk te MEPPEL
Geesje Broekhuizen	is tussen 1785 en 1827 overleden	mogelijk te MEPPEL
Gerrit Blaauboer	is tussen 1827 en 1894 overleden	mogelijk te ZIJPE
IJda t Hart	is tussen 1827 en 1894 overleden	mogelijk te ZIJPE
Jan Veuger	is tussen 1827 en 1883 overleden	mogelijk te MEPPEL

Het hanteren van absolute datumregels (zoals een maximum leeftijd van 100 jaar), is een extreme vorm van het hanteren van waarschijnlijkheden met betrekking tot data, en het kan leiden tot heel ruime intervallen (van geboorte, trouwen of overlijden). Toch maakt deze keuze het trekken van conclusies aanmerkelijk eenvoudiger en het blijkt ook in veel gevallen afdoende te zijn. Wanneer echter ambigue gegevens optreden zou kennis van historische (conditionele) waarschijnlijkheidsverdelingen rond geboorte, trouwen en overlijden een betere schatting kunnen opleveren.

IV.3 Standaardisatie VAN DE GEGEVENS

Na de standaardisatie van de gegevensstructuur resulteert een analysebestand met vermelde persoonsnamen (met daaraan relationeel gekoppelde bestanden met informatie over geboorte, trouwen, overlijden etc). De familiereconstructie komt erop neer dat we de informatie over eenzelfde persoon, zoals die is opgeslagen in verschillende records, bijeenbrengen. Daartoe moeten ook de gegevens zelf in een gestandaardiseerde vorm gebracht worden.

In principe zouden alle opgenomen gegevens onderhevig kunnen zijn aan variatie in notatie. Dat geldt voor de persoonsnaam, plaatsnaam, maar ook datum. Om bij de ontwikkeling van Genesis toch eerst een beperking tot de belangrijkste hoofdlijnen aan te brengen is voorlopig alleen standaardisatie van eigennamen aan de orde (dwz plaatsnamen en data worden geacht gestandaardiseerd ingevoerd te zijn, in een latere fase zal deze beperking zeker voor plaatsnamen vervallen).

Bij standaardisatie van eigennamen hebben we de keus om of per naam vooraf een standaardvorm te bepalen of operationeel te werk te gaan. In het laatste geval onderzoeken we pas gedurende het koppelingsproces of twee namen voldoende op elkaar lijken. Laat een voorbeeld dit verduidelijken. Als we de voornaam Margje hebben dan kan dit een verkorte vorm zijn van Margareta of van Maria. Als we de naam vooraf standaardiseren op Margareta kan een koppeling met een vermelding als Maria gemist worden (en vice versa). In een operationele aanpak behoeft dat niet te gebeuren. Een alternatief is om een algemenere standaard te kiezen waaronder zowel Margareta als Maria vallen. Dat kan echter weer leiden tot koppelingen die niet juist zijn.

In Genesis is er voor gekozen om vooraf een standaardvorm voor een naam te bepalen. In veel gevallen is zo'n standaardvorm eenduidig. De gedachte is dat als er op dit niveau een fout gemaakt wordt dat er dan later in het koppelingsproces procedures moeten zijn om daar nog eens op te controleren, maar dan in het licht van alle gegevens die over personen bekend zijn (en niet alleen de naam). Het vooraf bepalen van een standaardvorm van namen heeft als enorm voordeel dat het bijeenbrengen van records die mogelijk gekoppeld kunnen worden (in de literatuur ook wel 'pocketing' of 'blocking' genoemd) zeer vereenvoudigd wordt.

Maar hoe bepalen we een gestandaardiseerde vorm van een naam? Laten we daarvoor eerst beschrijven hoe Genesis procedureel te werk gaat. Genesis werkt met een bestand van voornamen en een bestand van familienamen. Daarin worden verschijningsvormen van namen (zoals die in de te onderzoeken gegevens voorkomen) ondergebracht tesamen met een gestandaardiseerde vorm. Van een nieuwe naam wordt eerst gekeken of die al in het bestand aanwezig is. Zo ja, dan is de ermee verbonden standaardvorm direct bekend. Zo nee, dan moet onderzocht worden of de naam voldoende lijkt op al beschikbare standaardvormen zodat de naam als een nog onbekende variant kan worden beschouwd. Als ook dit niet het geval is dan wordt de naam als volledig nieuw voor het bestand gezien en aan het betreffende voornamen of familienamen bestand toegevoegd. In deze procedure creert het algoritme zijn eigen standaardvormen, afhankelijk van de eigenschappen van het algoritme.

Cruciaal in dit proces is de vraag of een nieuwe naam als variant van een al bekende standaardvorm kan worden gezien. Hierbij worden twee aspecten onderkend. De eerste is gebaseerd op de constatering dat veel varianten op systematische wijze kunnen ontstaan (bijvoorbeeld verkleinvormen van een naam, gevolgen van uitspraakvarianten, afkortingen, patroniemvormen, latiniseringen, verfransingen, spellingsvarianten die door regels te beschrijven zijn etc.). We kunnen een naam hiervan ontdoen door toepassing van regels. In veel gevallen ontstaat hierdoor een herschreven naam die een standaardvorm heeft.

Er zijn echter ook niet-systematische processen die de spelling van een naam kunnen hebben beinvloed. Tot de niet-systematische processen behoren schrijffouten (bij de bron), lees- en typfouten (bij het overbrengen naar een computerbestand), en ongebruikelijke spellingsvormen of varianten die eigenlijk niet goed door regels zijn te beschrijven (anders dan door een regel die de totale naam direct naar een standaardvorm omzet). Het enige wat hierbij mogelijk is om de (reeds door regels herschreven) naam te vergelijken met bekende standaardvormen en een maat te ontwikkelen die ons vertelt in hoevere twee namen op elkaar lijken. Hoe lager de score op deze maat hoe beter de vergelijkbaarheid van de namen. Als de score onder een bepaalde drempel blijft zijn de namen waarschijnlijk varianten van elkaar, boven de drempel niet. Als een naam niet beschouwd kan worden als een variant van ‚‚n van de reeds bekende standaardvormen dan kan de naam als een nieuwe standaardvorm opgenomen worden.

Het hier beschreven standaardisatieproces zou kunnen worden gevolgd vanaf het begin van een analyse wanneer er nog geen naam in het voornamen- en familienamenbestand is opgenomen. Die bestanden vullen zich vanzelf. Een alternatief is om gebruik te maken van al beschikbare informatie op dit vlak. Dat zijn het Voornamenboek (vd Schaar, Gerritzen, Berns; 1992) en het Repertorium van Familienamen (Meertens, Buitenhuis, Palmboom; 1963-1988). In het Voornamenboek worden op een totaal van 19921 voornamen, 3898 verschillende grondvormen genoemd (2103 voor mannen, 1395 voor vrouwen). Deze grondvormen zouden we kunnen gebruiken als een vaste verzameling standaardvormen waarnaar elke voornaam getransformeerd moet worden. Het Nederlands Repertorium van Familienamen (147.600 namen uit de volkstelling van 1947) bevat geen grondvormen dus daar kan geen standaardverzameling gebruikt worden. Van beide bestanden bestaan elektronische versies3. Bij de interpretatie van de aantallen namen moet er overigens rekening mee worden gehouden dat er veel systematische varianten in de genoemde bestanden opgenomen zijn en dat veel namen zeer infrequent zijn. E‚n derde van de 147.600 familienamen had een frequentie van 1 (op een totale frequentie van 9.500.000)!

Wat naamkundigen als grondvorm van namen gebruiken is meestal een naam die als ethymologische oorsprong kan worden beschouwd. Deze vorm is echter niet zonder meer in familiereconstructie als standaardvorm te gebruiken. Zo zijn Ina en Ine twee verschillende grondvormen, maar hebben Trijntje en Keet dezelfde grondvorm Catharina. Binnen familiereconstructie lijkt het verstandig niet te snel te beslissen dat twee namen werkelijk verschillen. De vermeldingen van Ina en Ine zouden dan namelijk voorlopig niet meer vergeleken worden omdat deze voornaam verschilt. Als we echter de mogelijkheid van schrijf- of leesfout niet willen uitsluiten dan moeten deze namen toch maar onder eenzelfde standaardvorm worden gebracht. Er zijn in het reconstructieproces immers vaak nog vele andere gegevens op grond waarvan we alsnog zouden kunnen besluiten of beide vermeldingen al dan niet op eenzelfde persoon betrekking hebben. Daarom zijn de standaardvormen zoals die in Genesis worden gebruikt aanzienlijk ruimer dan welke naamkundigen hanteren. Er valt veel voor te zeggen om Ina en Ine, maar ook Trijntje en Keet, samen te nemen in ‚‚n standaard. Bij zo'n keuze kan ook de frequentie van voorkomen een rol spelen, namelijk dat we zeer infrequente namen veel eerder kunnen samennemen dan hoogfrequente. In het bestek van dit artikel kunnen we op al deze interessante naamaspecten echter niet verder ingaan.

IV.3.1 Naamstandaardisatie door regels

Voor de naamvarianten die ontstaan zijn door systematische processen kunnen we proberen om met behulp van regels weer terug te komen tot de basisvorm. Een aantal belangrijke aspecten waarop regels betrekking kunnen hebben zijn voor voornamen:

spellingsvarianten waarbij de uitspraak van de naam gelijk blijft
(Vb: Carel->Karel, Christiaan->Kristiaan)
spellingsvarianten op basis van uitspraakvarianten die ontstaan door uitspraakprocessen
(Vb: zgn schwa-insertie, Hendrik->Henderik, Femke->Femmeke)
verklein- en vleivormen van een naam, vooral tot uitdrukking komend in het affix
(Vb: -je, -tje, -sje, -skje,...)
al dan niet reeële latijnse vorm van de naam
(Vb: Geertruida->Geertrudis, Dirk->Theodorus)
combinaties van (gedeelten van) namen
(Vb: Annemaria, Helenagonda)
afkortingen van (een gedeelte van) een naam
(Vb: Cornelis->Cor, Christiaan->Chris, Adelbert->Albert)
onderdeel van een naam
(Vb: Sebastiaan->Bas)
etc.

In Genesis wordt een naam in eerste instantie herschreven volgens ongeveer 100 regels die gebaseerd zijn op bovengenoemde processen. Dit leidt tot de gereduceerde semi-fonetische vorm van de naam. Gereduceerd omdat de naam ontdaan wordt van allerlei affix vormen, en semi-fonetisch omdat de weergave enigszins correspondeert met de uitspraak van de naam. Een volledige fonetische transcriptie is door de vele uitzonderingen erg moeilijk. Deze worden vooral veroorzaakt door onregelmatigheden in lange en korte klinkers, in het bijzonder van de e-klank. Een volledige transcriptie lijkt overigens voor het standaardisatieproces in veel gevallen niet echt nodig4.

Namen worden in Genesis op het gereduceerde semi-fonetische nivo alleen nog met hoofdletters geschreven. Patroniemen worden herschreven als voornaam. Voor familienamen zijn er minder regels en blijft de standaardisering vooral beperkt tot de semi-fonetische herschrijving. Wel worden voorzetsels, lidwoorden en voegwoorden van familienamen afgezonderd.

Voorbeelden

Christianus	-> KRIST
Albertsz	-> ALBERT
Heiden van der	-> HYDEN
van Schalkwijck	-> SGALKWYK

De gereduceerde semi-fonetische vorm moet worden beschouwd als een vorm van interne codering voor het doel van familiereconstructie. Ze heeft geen naamkundige betekenis. De eigenschap van de vorm moet zijn dat er nog voldoende informatie aanwezig is opdat in ieder geval verschillende namen onderscheidbaar zijn terwijl voor naamvarianten de vorm zoveel mogelijk gelijk wordt. Aangezien naamonderscheid veelal in het begin van de naam aanwezig en varianten op het naameinde betrekking hebben wordt meestal naar het begin van de naam toe gereduceerd.

Een ander regelsysteem voor naamstandaardisatie is beschreven door Nygaard (1993). Hij werkt met een systeem met een zeer groot aantal regels (>800) die empirisch bepaald worden en een mix zijn van systematische- en niet-systematische fonetische en taalkundige aspecten van naamvariaties. De regelcompiler van Nygaaard zorgt dat het grote aantal regels efficiënt verwerkt wordt. Ondanks goede resultaten lijkt het probleem toch vooral te liggen in de ad hoc basis waarop de regels tot stand komen: Elk nieuw type variant (ook een typfout) moet opgevangen worden door een nieuwe regel. Het aantal regels (800) in verhouding tot de verzameling namen waarop ze is gebaseerd (2000) spreekt boekdelen. Omdat in Genesis aparte procedures zijn opgenomen voor systematische- en niet-systematische naamvariaties, is het aantal regels beperkt tot een honderdtal waarvoor geen speciale compiler behoefde te worden geschreven. De regels werden gecontroleerd aan de hand van de genoemde corpora van voornamen en familienamen. Dezelfde procedure is gebruikt door Bouchard en Pouyez (1980).

IV.3.2 Het vergelijken van namen

Als een naam na het herschrijven met behulp van regels nog steeds niet tot een bekende standaardvorm behoort dan wordt deze naam onderzocht op mate van overeenstemming met bekende standaardvormen. Het is echter niet aantrekkelijk om een naam soms met tienduizenden anderen te moeten vergelijken (alfabetisch zoeken is onvoldoende). Daarom wordt in Genesis eerst een tussenfase ingelast met als doel de zoekruimte aanzienlijk te beperken.

Van elke naam wordt uit de gereduceerde semi-fonetische vorm een nog verder gereduceerde skeletvorm gemaakt, bestaande uit de eerste syllabe plus alle volgende medeklinkers5. Het argument hiervoor is dat de eerste syllabe vaak naamonderscheidend is. Nadat de skeletvorm van een naam is vastgesteld wordt het woordbegin gemarkeerd met het symbool # en wordt er vervolgens een bestand gemaakt met alle geroteerde vormen van de skeletvorm van namen. Hieronder volgt de gehele omzetting voor Aelbert, Elbertine en Adelbertus.

bronnaam	Aelbert	Elbertine	Adelbertus
semi-fon	ALBERT	ELBERT	ADELBERT
skelet	#ALBRT	#ELBRT	#ADLBRT
	ALBRT#	ELBRT#	ADLBRT#
	LBRT#A	LBRT#E	DLBRT#A
	BRT#AL	BRT#EL	LBRT#AD
	RT#ALB	RT#ELB	BRT#ADL
	T#ALBR	T#ELBR	RT#ADLB
			T#ADLBR

Stel dat Aelbert een onbekende naam was dan zou op grond van de geroteerde skeletvorm LBRT# een overeenstemming gevonden zijn met Elbertine en op grond van LBRT#A met Adelbertus.

Een zoekprocedure met de geroteerde skeletvorm van een onbekende naam is zeer snel en resulteert in gemiddeld zo'n 10 tot 20 naamkandidaten (met de meeste skeletovereenstemming). Daarna volgt een procedure die uit deze set de meest gelijkende naam kiest. Het voert helaas te ver die procedure hier weer te geven, dat zal in een komend artikel worden gedaan. Het is een dynamische programmeertechniek die gebruik maakt van digrammen (en kan beschouwd worden als een mix van het fonetisch georienteerde SOUNDEX codering en het letterverwisselings algoritme van Guth (1976)). Een belangrijk verschil met andere naamstandaardisatiealgoritmen is dat het algoritme getraind kan worden6.

We besluiten de naamstandaardisatie met een voorbeeld rond de naam Albert. Uit een steekproef van 84.000 voornamen uit de volkstelling van 1947(7) komt de volgende reeks namen. We geven de naam, de sexe, de frequentie van voorkomen (op 42.000 per sexe), de grondvorm zoals die in het Voornamenboek staat (soms staat de naam daar niet in) en de standaardvorm zoals die uit ons algoritme resulteert (waarbij geen gebruik is gemaakt van vooraf gedefinieerde standaardvormen).

naam sexe frequentie grondvorm standaard

Aalbert M 19 Adelbert Albert
Adelbertus M 3 Adelbert Albert
Albartus M 2 Adelbert Albert
Albert M 469 Adelbert Albert
Albertes M 1 Albert
Alberthus M 4 Albert
Albertinus M 1 Adelbert Albert
Albertjan M 1 Albert
Albertus M 298 Adelbert Albert
Arobert M 1 Albert
Elbert M 17 Adelbert Albert
Elbertus M 1 Adelbert Albert
Elibert M 2 Adelbert Albert
Elibertus M 1 Adelbert Albert
Aalbertje V 6 Adelbert Albertje
Adelberta V 1 Adelbert Albertje
Albarta V 9 Adelbert Albertje
Alberdina V 70 Adelbert Albertje
Alberdine V 1 Adelbert Albertje
Alberdiena V 1 Adelbert Albertje
Alberta V 55 Adelbert Albertje
Albertdina V 2 Albertje
Albertha V 40 Albertje
Albertien V 5 Adelbert Albertje
Albertiena V 5 Albertje
Albertina V 2 Adelbert Albertje
Albertjanna V 1 Adelbert Albertje
Albertje V 74 Adelbert Albertje
Elbarta V 1 Albertje
Elberdina V 1 Adelbert Albertje
Elberta V 2 Adelbert Albertje
Elbertha V 4 Adelbert Albertje
Elbertje V 22 Adelbert Albertje
Halbertje V 1 Halbert Albertje
Aalbrecht M 1 Adelbert Albrecht
Albrecht M 4 Adelbert Albrecht
Beert M 4 Adelbert Bertus
Bertus M 31 Adelbert Bertus
Berta V 6 Adelbert Bertha
Bertha V 92 Adelbert Bertha

Het algoritme kiest de meest voorkomende naam in een groep en let daarbij op de sexe. De afwijkingen met de grondvorm zijn begrijpelijk. Het in de volkstelling van 1947 op zich al aanzienlijk aantal varianten op een naam zal overigens in historische bronnen nog groter kunnen zijn.

IV.3.3 Gebruikerscontrole

Hoe goed een algoritme voor naamstandaardisatie ook is, het is nooit perfect. Daarom kan en moet de gebruiker de bestanden van voornamen en familienamen controleren en waar nodig wijzigen. Vervolgens wordt in het analysebestand de standaardvorm van elke naam toegevoegd naast de orginele schrijfwijze. Met de standaardvorm wordt verder gewerkt.

IV.4 KOPPELING

Als iedereen een unieke naam zou hebben (behoudens spellingsvarianten) dan zouden we na de standaardisatie van namen gereed zijn met de familiereconstructie. We zouden de vermeldingen op naam kunnen groeperen en uit deze gegevens per persoon een dossier kunnen samenstellen. Uiteraard is deze premisse ongeldig. Er zijn vele personen met dezelfde naam geweest en zeker bij namen waarvan alleen de voornaam en patroniem bekend zijn, of zelfs alleen de voornaam of alleen het patroniem, of helemaal niets [overleden 't kind van Claes Dirxs], is de onbepaaldheid nog groot.

In de nu volgende fase van Genesis gaan we dit probleem proberen op te lossen door gebruik te maken van zoveel mogelijk kennis die we buiten de naam over een persoon bezitten, dat wil zeggen door gebruik te maken van geboortegegevens (inclusief namen van ouders), huwelijkgegevens (inclusief namen van partners), overlijdensgegevens en gegevens over kinderen. Het is uiteraard niet toevallig dat juist deze gegevens in analysebestanden zijn ondergebracht.

Bij gegevenskoppeling wordt vaak rekening gehouden met verschillen in betrouwbaarheid en bruikbaarheid van de beschikbare informatie. Bouchard (1992) onderscheidt (1) stabiele en unieke informatie die voor koppeling kan worden gebruikt, (2) informatie voor validatie en controle op consistentie van de koppeling en (3) additionele informatie. Het feit dat koppeling en validatie als processen worden beschouwd die verschillende typen informatie gebruiken is echter verwarrend en onduidelijk. In Genesis wordt in principe alle beschikbare informatie over persoonsnamen, relaties tussen personen, data van geboorte, huwelijk en overlijden als betrouwbaar beschouwd en in het koppelingsproces gebruikt. Omdat data altijd beschikbaar zijn als tijdsinterval drukt de grootte van dit interval de nauwkeurigheid van de gegevens uit. Hoe kleiner het interval hoe nauwkeuriger de informatie. Op het feit dat er soms ook onjuiste informatie aanwezig zal zijn kan in deze fase van reconstructie nog niet geanticipeerd worden. Plaatsnamen zijn aanzienlijk minder bruikbaar in het reconstructieproces (een kind kan toevallig in een nabijgelegen dorp gedoopt zijn), maar worden in specifieke gevallen wel gebruikt. Ook het beroep wordt vooralsnog om redenen van variabiliteit niet in de analyses betrokken.

In Genesis worden voor de koppeling van gegevens de volgende uitgangspunten gehanteerd:

(1) de ordening moet tot stand worden gebracht op basis van alle beschikbare genealogische informatie [volledigheid]

(2) voor elke onderscheiden persoon moeten de gegevens volledig consistent zijn [consistentie]

(3) de groepering moet resulteren in de kleinst mogelijke verzameling personen [minimalisatie] (ofwel, er wordt gestreefd naar een maximum aantal gegevenskoppelingen)

Van deze drie eisen zijn de eerste twee (volledigheid en consistentie) duidelijk en eenduidig. De derde eis, minimalisatie van de verzameling personen, is echter niet vanzelfsprekend. Het hoeft niet zo te zijn dat de kleinst mogelijke verzameling personen ook de meest waarschijnlijke oplossing is. We moeten echter naast de eisen (1) en (2) nog een beperkende eis stellen. Het is volgens alleen de eisen (1) en (2) bijvoorbeeld mogelijk om alle persoonsvermeldingen te interpreteren als behorend bij allemaal verschillende personen, en dus niets te doen aan het groeperen van gegevens. Daarom is de minimalisatie eis (3) zo gek nog niet. Waarschijnlijk is er maar ‚‚n groepering van gegevens die echt het minimum aantal personen oplevert. Dat is in ieder geval een duidelijk doel en convergentie criterium. We kunnen dan altijd zien of deze oplossing ons bevalt en waar we zelf, op basis van een meer ge‹ntegreerde interpretatie van de gegevens, liever andere postulaties van personen maakten.

IV.4.1 Primaire koppeling

Het groeperen van gegevens impliceert het vergelijken van een persoonsvermelding met elke andere vermelding die mogelijk te koppelen valt. Dat is een zeer omvangrijke en vaak uiterst langdurige taak. Elke mogelijkheid om efficient te werk te gaan moet worden aangegrepen. Het bespaart veel werk als we zo snel mogelijk koppelingen leggen tussen vermeldingen waarvan we op voorhand al erg zeker zijn. Dit zal onder bepaalde condities het geval zijn bij echtpaarvermeldingen. Deze strategie is ook beschreven door Bouchard en Pouyez (1980). Een bepaalde combinatie van voornaam, patroniem en familienaam van man en vrouw, en indien deze gegevens niet allen aanwezig zijn, nog gekoppeld aan de vermelding van de woonplaats, wordt in Genesis als uniek beschouwd. Vaak is hiermee al een aanzienlijk deel van de groepering voltooid (tot in de orde van 1/3 deel, uiteraard afhankelijk van het materiaal). We noemen dit de primaire koppeling.

Het is interessant om te onderkennen dat de primaire koppeling sterke overeenkomst vertoont met de praktijk van het genealogisch onderzoek. We zoeken in archieven vaak naar naamcombinaties, eerst in een bepaalde plaats (in een bepaalde kerkelijke statie) en dan in de plaatsen daaromheen. Intuitief wordt ook de waarschijnlijkheid van een bepaalde vermelding ingeschat. Als er een keer een combinatie Jan Pieters Overmans en Grietje Arends de Waal in een plaats wordt vermeld dan koppelen we daaraan ook vermeldingen van Jan Pieters en Grietje Arends die in ongeveer dezelfde tijd (binnen 20 jaar) in dezelfde plaats worden vermeld.

Bij de verschillende primaire koppelingen kan er ook doorgekoppeld worden. Laat een voorbeeld dat verduidelijken. We mogen naamcombinaties koppelen waarbij de trouwdatum binnen een half jaar overeenstemt. Zo kan het paar Willem Dirks en Maartje Jans trouwen in kerk te De Rijp maar zich voor betaling van de impost op het trouwen moeten melden in de jurisdicties van Graft en Akersloot. Aan deze trouwkoppeling wordt een vrij sterke datum-eis (binnen 180 dagen) maar niet zo'n sterke naameis verbonden, waaraan de genoemde combinatie voldoet. Dit impliceert een plaatsoverschrijdende koppeling. Vervolgens worden kinderen gedoopt in kerken in De Rijp en Akersloot, weer onder vermelding van Willem Dirks en Maartje Jans. Deze koppelingen (zonder familienaam!) worden alleen in dezelfde plaats gelegd, derhalve apart in De Rijp en Akersloot. Omdat er echter ook al een plaatsoverschrijdende koppeling aanwezig was worden nu alle vermeldingen uit de drie plaatsen aan elkaar gekoppeld.

De koppeling van persoonsvermeldingen die in deze primaire fase worden gerealiseerd zullen voorlopig niet meer ongedaan gemaakt kunnen worden, en we stellen dus vrij hoge eisen aan de betrouwbaarheid. Een fout die hier gemaakt wordt zou onherroepelijk leiden tot ernstige fouten in de verdere analyses.

IV.4.2 Geordend groeperen

Na de koppelingen die we primair tussen persoonsvermeldingen kunnen aanbrengen gaan we verder met het onderverdelen van de persoonsvermeldingen naar voornaam. Een verschillende voornaam impliceert (in Genesis) direct een ander persoon (maar zie IV.6.1). Dit resulteert in deelverzamelingen van persoonsvermeldingen op voornaam. Per deelverzameling op voornaam volgt dan een groepering die onafhankelijk van de groepering van de overige deelverzamelingen kan worden uitgevoerd. De meeste grote systemen voor gegevenskoppeling selecteren eerst op familienaam. Dat kan voor 19e-eeuwse gegevens zinvol zijn, maar in oudere informatie ontbreekt frequent een familienaam. Een algemeen bruikbare voorselectie moet zich derhalve op de voornaam concentreren.

Hoe gaan we nu binnen een deelverzameling op voornaam te werk om tot een groepering te komen in verschillende sets, die ieder aan een aparte persoon worden toegeschreven? Het is niet verstandig om daarbij willekeurig te werk te gaan. Dat kan ook niet, want ook voor de nu voorliggende taak gelden de eerder geformuleerde eisen van volledig gebruik van de beschikbare gegevens, consistentie van de gegevens die aan ‚‚n persoon worden toegeschreven en tenslotte om zo weinig mogelijk personen te introduceren. Nu zijn er in een deelverzameling op voornaam al snel veel persoonsvermeldingen. Deze zijn op zeer vele manieren onder te verdelen in sets die aan de eisen van volledigheid en consistentie voldoen. We zouden al deze indelingen in sets kunnen opsporen om tenslotte degene te kiezen met het minste aantal personen.

Het probleem is dat er in principe zeer veel indelingen in sets bestaan, waarbij we ook nog relaties tussen gepostuleerde personen uit andere deelverzamelingen op voornaam moeten nagaan (bijvoorbeeld trouwrelaties en ouder-kind relaties). Vooralsnog lijkt dit ondoenlijk. Daarom is er voor gekozen om per deelverzameling op voornaam stap voor stap sets af te splitsen waarvan we aannemen dat ze afkomstig zijn van één persoon. We zijn er dan inderdaad niet zeker van dat we de oplossing vinden met het minste aantal personen, maar als we de afsplitsing van sets verstandig organiseren, kunnen we er zorg voor dragen dat een oplossing resulteert die daar toch dicht bij in de buurt ligt.

Deze opzet vereist een keuze, namelijk in welke volgorde we de gegevens gaan analyseren. Daarvoor introduceren we een belangrijk volgorde-principe bij de verwerking van gegevens: De groepering wordt gestart met de persoonsvermelding die het meest rijk is aan informatie. Dit laatste wordt weergegeven in de informatiewaarde van de persoonsvermelding, een getal dat de hoeveelheid informatie uitdrukt die in een akte over de betrokken persoon wordt gegeven.

Het idee achter de informatiewaarde is dat als we in ‚‚n vermelding al veel van een persoon weten, dat dat een goede basis is om er mee samenhangende vermeldingen te vinden die met een grote waarschijnlijkheid ook wel aan die persoon toegeschreven kunnen worden. Van een bruid die genoemd wordt in een trouwakte voor de Oud Burgelijke Stand is vaak veel bekend: trouwdatum, naam van de man, naam van de ouders en het geboortejaar en plaats. Van personen uit een een wel heel minimale doopakte: 4 april 1697 Joannes, P. Pieter, M. Trijn, matr Maertje, Schermer, bijna niets. Het is verstandiger om met de eerstgenoemde gegevens eerder aan de slag te gaan dan die welke in de doopakte vermeld staan (en nog verstandiger om voorlopig maar helemaal niets met de laatste gegevens te doen).

Voor de informatiewaarde van een persoonsvermelding worden op betrekkelijk arbitraire wijze volgens onderstaande tabel punten toegekend indien bepaalde gegevens aanwezig zijn. De som van deze punten bepaalt de informatiewaarde en werd al eerder berekend toen omzetting van de gegevens naar de analysebestanden plaatsvond.

informatie		punten
voornaam (persoon, partner, vader, moeder)		1
patroniem ((persoon), partner, vader, moeder)		3
familienaam (persoon, partner, moeder)		5
datuminterval van geboorte of overlijden	<2 jaar	5
	2-5 jaar	3
	5-10 jaar	2
	10-20 jaar	1
trouwdatum		3

De groepering van gegevens in een deelverzameling op voornaam begint nu met de persoonsvermelding die de hoogste informatiewaarde heeft: de doelpersoon. Deze doelpersoon is waarschijnlijk het beste in de genealogie verankerd. Ten opzichte van de informatie die we hebben over deze doelpersoon, wordt dan alle informatie van de andere persoonsvermeldingen (de testpersonen) onderzocht op overeenstemming of strijdigheid. Dat geeft een deelverzameling van testpersoonsvermeldingen die volledig consistent zijn met de gegevens die we hebben over de doelpersoon:

D = T1

D = T2

D = T3

etc.

Vervolgens moet ook nog onderzocht worden of de testpersoonsvermeldingen onderling consistent zijn:

T1 =? T2

T1 =? T3

T2 =? T3

De uiteindelijk resulterende, onderling volledig consistente, set, bv {D,T1,T2,T3}, wordt dan afgesplitst. Vervolgens wordt een volgende groepering gestart met de persoonsvermelding met de dan hoogste informatiewaarde. En zo verder totdat alle gegevens gegroepeerd zijn.

Deze procedure is verwant aan noties zoals hierarchische- of preferentie scoring in het koppelingsproces (Wrigley en Schofield, 1973; Bouchard, 1992). Daarbij wordt elke koppeling afzonderlijk beoordeeld op de kracht van de koppeling en wordt (meestal) de voorkeur gegeven aan de sterkste koppeling. Dit impliceert wel dat eerst alle mogelijke koppelingen moeten worden bekeken om de sterkte ervan vast te stellen. In onze terminologie hangt de kracht van de koppeling sterk samen met de informatiewaarde van de twee afzonderlijke records. Uit efficiëntie overweging wordt in Genesis de volgorde van koppeling echter alleen bepaald door het meest informatieve record. Dat is een beperking en het effect is dat het meest informatieve record de neiging heeft om veel andere, minder informatieve, records naar zich toe te trekken (mits die natuurlijk compatibel zijn). Vooral weinig informatieve records, die de neiging hebben om met veel andere records in overeenstemming te zijn, lopen het gevaar verkeerd ingedeeld te worden. Hetgeen overigens algemeen waar is. Daarom hanteert Genesis een grens aan de informatiewaarde die een record moet bevatten om voor koppeling (in deze fase) in aanmerking te komen. Deze grens kan door de gebruiker worden ingesteld. Deze weinig informatieve records worden pas geanalyseerd gedurende de gebruikersinterventie aan het einde van het reconstructieproces.

IV.4.3 Strijdigheden

De feitelijke groepering van persoonsvermeldingen berust op het uitsluiten van vermeldingen die op enigerlei wijze strijdig zijn met de gegevens die over de doelpersoon bekend zijn. Controles hierop vinden plaats rond (1) de naam, (2) data van geboorte, huwelijk en overlijden, (3) namen van ouders. Daarna wordt nog de interne consistentie van de overgebleven vermeldingen op deze drie punten nagegaan.

1: controle op strijdigheid in naam

We selekteren eerst de persoonsvermeldingen uit die niet strijdig zijn met de gestandaardiseerde naam van de doelpersoon. Hierbij moet er altijd een voornaam bekend zijn en mogen patroniem en familienaam ontbreken. Met de resulterende verzameling persoonsvermeldingen gaan we de volgende fase in.

2: controle op strijdigheid in geboorte-, trouw-, en overlijdensgegevens

Voor de doelpersoon hebben we informatie over het tijdvak van geboorte en overlijden, en eventueel van het trouwen. Van de set persoonsvermeldingen die door de naamselectie zijn gekomen gaan we vervolgens controleren of de geboorte-, trouw- en overlijdensgegevens al dan niet strijdig zijn met die van de doelpersoon. Als er een strijdigheid wordt ontdekt dan valt de persoonsvermelding direct af.

Weten we bijvoorbeeld dat de doelpersoon tussen 1780 en 1806 is geboren en is van een andere persoonsvermelding bekend dat de geboorte voor 1777 moet hebben plaatsgevonden, dan kan het niet om dezelfde persoon gaan en valt de persoonsvermelding af. Bij trouwgegevens moeten we zeer voorzichtig zijn met verwerping omdat meerdere huwelijken mogelijk zijn. Trouwgegevens leiden daarom in deze groeperingsfase zelden tot verwerping van persoonsvermeldingen.

3: controle op strijdigheid van namen van ouders

Het kan voorkomen dat van de doelpersoon de namen van de ouders bekend zijn. Mocht dit ook voor andere persoonsvermeldingen het geval zijn dan kan daarop getest worden. Elke strijdigheid leidt tot verwerping van de persoonsvermelding. Er valt hier bijvoorbeeld te denken aan verschillende huwelijksakten voor de Oud Burgelijke Stand, waarbij in de eerste akte Jan Water (vader Dirk Water, moeder Trijntje Vader) wordt genoemd en in de tweede akte Jan Water (vader Pieter Water, moeder Maartje Graftdijk).

4: onderlinge consistentie van persoonsvermeldingen

De persoonsvermeldingen die na de eerste drie fasen resteren zijn volledig in overeenstemming met de gegevens van de doelpersoon. Ze zijn echter niet onderling getest en daarin kunnen alsnog strijdigheden optreden.

Bijvoorbeeld: de doelpersoon is voor 1760 geboren en er zijn twee persoonsvermeldingen met een geboortedatum in respectievelijk 1755 en 1757. Deze kunnen niet beiden juist zijn, er moet gekozen worden (althans, in Genesis is er voor gekozen om te kiezen en niet om deze opties open te laten, herziening van de keuze is in de controlefase mogelijk). Een ander voorbeeld is een doelpersoon die overlijdt na 1780 en twee andere persoonsvermeldingen met overlijdens in 1788 en 1796, respectievelijk. Ook kunnen er trouwgegevens zijn waarbij trouwperioden overlappen.

De volgende regels worden gehanteerd, waarbij voor het eerst onvermijdelijke keuzes moeten worden gemaakt en waarbij een keuze weliswaar leidt tot een consistente oplossing, maar waarbij we niet zeker weten of dat ook de juiste is.

We kiezen:

de laatste voorhanden zijnde geboortedatum (in verband met eerder overleden broers/zusters met dezelfde naam)
de vroegste overlijdensdatum (in verband met het risico van verwarring met overlijdens van kinderen/neven/nichten met dezelfde voornaam uit een volgende generatie)
vanaf het vroegst bekende huwelijk worden overeenstemmende huwelijksvermeldingen gekozen (dwz dat een ander huwelijk pas wordt geaccepteerd na de laatst bekende vermelding van het vroegst bekende huwelijk)
bij meerdere huwelijken mag er maximaal 25 jaar tussen twee opeenvolgende huwelijken liggen (in verband met mogelijke generatiefouten); dit is ook een regel van Wrigley and Schofield (1973).
als de namen van ouders bij de doelpersoon ontbreken dan kiezen we de namen van ouders bij de persoonsvermelding met de relatief hoogste informatiewaarde

We benadrukken nogmaals dat dit arbitraire keuzen zijn met een reeële mogelijkheid tot het maken van fouten (ondanks consistentie van gegevens). Als in de controlefase wordt vastgesteld dat er toch foutieve keuzes zijn gemaakt dan kunnen die alsnog worden hersteld.

IV.5 DOSSIERVORMING

Als alle gegevens gegroepeerd zijn kunnen we overgaan tot het samenstellen van een dossier voor elke vermelde persoon. Alle informatie die we in verschillende vermeldingen bezitten over naam, geboorte (plus ouders), huwelijk (plus partner(s)), kinderen, overlijden, beroepsvermeldingen en overige vermeldingen worden gecombineerd tot de meest nauwkeurige uitspraken die we over deze onderwerpen kunnen doen. Deze informatie komt in een nieuwe (derde) reeks gegevensbestanden terecht: de dossierbestanden. Figuur 3 geeft hiervan het entiteitsrelatiediagram. De dossierbestanden zijn vergelijkbaar met de analysebestanden maar bevatten door de groepering (dwz het samennemen) van gegevens geen redundante informatie meer. Ook de bronverwijzing is anders: In alle dossierbestanden staat bij elk record de bijbehorende bronverwijzing. In de analysebestanden is dat alleen het geval bij het algemene bestand van namen, omdat alle informatie rond een naam in andere bestanden uit slechts ‚‚n daarbijbehorende akte is afgeleid.

Voorbeelden

Er zijn van een persoon zes gekoppelde vermeldingen bekend, één met een exacte geboortedatum en vijf met geboorteintervallen. Nu we geconstateerd hebben dat het in alle gevallen om dezelfde persoon gaat kunnen we uiteraard volstaan met de exacte datum. Mocht deze datum onbekend zijn dan wordt het kleinste gemeenschappelijke geboorteinterval van alle gegevens bepaald en in het dossierbestand geplaatst. Analoog kan deze reductie plaats vinden voor alle andere bekende gegevens.

Ook voornaam, patroniem en familienaam worden nu gecompleteerd indien ze niet in een afzonderlijke akte al eerder allen werden genoemd. De gekoppelde vermeldingen van Klaas de Groot en Klaas Jans leidt tot opname van Klaas Jans de Groot in het dossierbestand.

Hieronder volgt een praktische voorbeeld van een dossier uit het onderzoek naar de armen van Aarle-Rixtel. De lay-out van het dossier is voor dit onderzoek enigszins aangepast. Andere dossiervormen komen in de volgende paragrafen aan de orde. In dit bijzondere geval wordt bij de vermelding in het armenregister niet steeds meer de bron vermeld. De achtereenvolgende gegevens zijn: datum, bedrag, (e)xtra ordinaire of (o)rdinaire (wat in dit dossier niet voorkomt), reden en omschrijving.

(4754) Antonus Arnoldus Cornelisse

Algemeen man, rk, analfabeet, te Aarle-Rixtel

Getrouwd op 11-09-1785 te Aarle-Rixtel, wonende te AR tot 1809

met Catharina Henricus Swenkels (4755), afkomstig uit AR <antonius arnoldus

cornellisse en catharina swenkels> [trouwboek rk kerk]

<eerste gebod donderdag 27 augustus 1785 anthonij arnoldus cornelissen uit AR,

geb. te AR (zette kruis) en catharina hendrik swinkels uit AR, geb. te Ar

(zette kruis)> [schepentrouwboek]

Kinderen Henricus (1558) *06-09-1786 1786<#<1886

Arnoldus (1807) *25-06-1789 #04-03-1790

Arnoldus (2038) *08-10-1791 1791<#<1891

Catharina (2418) ÿ *09-04-1795 1795<#<1895

Lambertus (2721) *22-07-1798 1798<#<1898

Begraven op 23-04-1809 te Aarle-Rixtel <antonius cornelissen> [begraafboek rk kerk]

<antonij cornelissen, aangever: katharina swinkels, vrouw> [begraafboek gereformeerde kerk]

nalatende vrouw en kinderen

Genoemd in akte op 01-10-1790 <tony kornelissen, won. te Rixtel> [kohier gemene middelen]

3 personen > 16 jaar en 2 personen < 16 jaar 3:0:0

1.00 beesten > 1 jaar, 0.00 < 1 jaar, oppervlak is 5.00 1:2:8

voor bestiaal geslag 0:10:0

voor drank 0:6:0

voor personeel 0:8:0

voor specie 0:7:0

geld totaal 4:13:8

13-11-1793 19:10:0 e kostgeld betaald aan dew. h.bogaars voor kostgeld van den ant.cornelissen sweeks 15 str van 23 november 1793 tot 23 meij 1794 zynde 26 weeken.

29-12-1794 1:10:0 e huishuur caat schepers voor huishuur tot pinxtere 95 aan ant.cornelissen.

10-04-1799 10:0:0 e aankoop koe tot aankoop van een koe om denzelve mede om was 't mogelijk aan een bestaan te helpen.

10-04-1799 3:0:0 e aankoop koe nog tot aankoop der voorn. koe.

20-11-1799 1.0 vat rogge e mondkost

Genoemd in akte op 01-10-1800 <antony arn. cornelissen, won. te Rixtel> [kohier gemene middelen]

0 personen > 16 jaar en 0 personen < 16 jaar

voor specie 0:2:0

geld totaal 0:2:0

onvermogende.

10-11-1800 1:10:0 1.0 vat rogge e

18-04-1801 3:10:0 e 1xf1.10.0 en 1xf2.0.0.

18-04-1801 91:1:0 e herstel huis aan w.ceelen timmerman voort optimmeren van t huysje van ant.arn.cornelissen t geene ten behoeve van den arme moet verwoond worden f77.1.0. item alsnog om te dekken in voege voorschr.f14.0.0.

11-11-1801 1:0:0 e

25-11-1802 0:10:0 e

27-04-1803 2:11:0 e cleragie voor cleragie voor de jonge antony cornelissen.

28-11-1804 0:15:0 e

08-05-1805 0:6:0 e

04-12-1805 0:6:0 e

04-12-1805 4:12:6 e cleragie

(13021) Catharina Henricus Swenkels

23-12-1810 2:0:0 e aan de weduwe ant.cornelissen voort geene aan dezelve nog gecompeteerde wegens opbouwing van derzelver huysje en inwooning van arme liede.

III.6 Controle van dossiers

Dossiers zijn een essentieel onderdeel van Genesis. Ze staan op zichzelf, wederom los van de analysebestanden (en de invoerbestanden). Ze vormen een neerslag van hypothesen met betrekking tot koppeling. In de controlefase worden dossiers onderling vergeleken. Dat kan leiden tot nieuwe inzichten waardoor de gemaakte koppelingen (in de analysebestanden) gewijzigd moeten worden. Als gevolg daarvan moeten oude dossiers verwijderd worden en nieuwe gemaakt. Deze dossiers kunnen weer gecontroleerd worden, enzovoort. Zo wordt op iteratieve wijze gewerkt naar een eindoplossing die voldoet aan alle criteria van consistentie, volledigheid en minimalisatie. Alhoewel denkbaar is dat een verbetering ook weer tot nieuwe fouten kan leiden, en het proces dus niet convergent behoeft te zijn, blijkt dat in de praktijk mee te vallen. Twee drie iteraties zijn meestal al voldoende om een stabiele oplossing te bereiken.

Waarom is controle van dossiers nodig? Dat komt omdat de groepering van persoonsvermeldingen tot nu toe persoongericht is gebeurd. Weliswaar is aandacht geschonken aan relaties met ouders en partners maar dat kon nog niet uitputtend plaatsvinden. Daartoe moesten eerst de dossiers gevormd zijn die een compacte neerslag zijn van de voorhanden zijnde informatie over een persoon en een eerste voorstel tot ordening. Nadere controle van de dossiers vindt vervolgens plaats rond de volgende hoofdpunten.

IV.6.1 Meerdere partners met bijna gelijke naam

We kunnen via huwelijken op het spoor komen van een aantal spellingsvarianten en/of schrijffouten die we in onze algemene procedure voor naamstandaardisatie niet konden ondervangen. Wanneer er sprake is van twee partners met een bijna gelijke naam (maar toch zo verschilllend dat standaardvormen van de naam verschillen) dan is er een argument om alsnog, voor dat specifieke geval, een nieuwe standaardisatie van schrijfwijze in te voeren in de veronderstelling dat het om dezelfde persoon als partner gaat. Hierna is een nieuwe hergroepering nodig (van relevante gegevens) en een partiële herdosiëring. Dit is de tweede fase van de naamstandaardisatie in Genesis. Een laatste fase zou kunnen bestaan uit het vergelijken van gehele dossiers. Mochten twee dossiers geheel in overeenstemming zijn op alleen een voornaam na dan is dat reden om nog eens goed naar die naam te kijken. Dit onderdeel is nog niet ingebouwd in Genesis.

Voorbeeld 1

Het onderstaande voorbeeld geeft een fraai inzicht in het effect van het corrigeren van voornamen en patroniemen op basis van de hypothese van meerdere huwelijken. We zien een deel van het dossier van de man Gerardus Thomas Verschuren waarin na de eerste groepering vijf verschilende huwelijken worden aangenomen. Van twee huwelijken is de voltrekking voor de schepenrechtbank bekend, de overige drie werden afgeleid uit de doopakten van kinderen:

Gerardus Thomas Verschuren

Getrouwd 1. op 07-05-1780 te Aarle-Rixtel, wonende te AR tot tussen 1780 en 1784

met Maria Cornelis Verstappen (4673), afkomstig uit AR

<eerste gebod donderdag 22 april 1780 gerit thomas verschuuren uit AR, geb. te AR,

RK (schreef naam) en maria cornelis verstappen uit AR, geb. te Beek, RK

(schreef naam)> [schepentrouwboek, Aarle-Rixtel]

Getrouwd 2. tussen 1744 en 1782 tot voor 1863 met Maria Jois Petrus Verstappen (6612)

Getrouwd 3. als wedn op 23-05-1784 te Aarle-Rixtel, wonende te AR tot tussen 1784 en 1863

met Adriana Goord Swinkels (4727), afkomstig uit AR

<eerste gebod donderdag 8 mei 1784 gerit verschuure, wednr van maria cornelis

verstappen uit AR, geb. te AR (schreef naam) en adriana goord swinkels uit AR,

geb. te Ar (zette kruis)> [schepentrouwboek, Aarle-Rixtel]

Getrouwd 4. tussen 1744 en 1785 tot tussen 1797 en 1863 met Arnolda Godefridus Swenkels (2492)

Getrouwd 5. tussen 1744 en 1787 tot tussen 1787 en 1863 met Godefrida Swenkels (4121)

Merk op dat de huwelijksintervallen nog niet onderling afgestemd zijn maar berekend zijn op basis van de oorspronkelijke gegevens. De aanpassing hiervan is onderdeel van de controlefase.

Bij de eerste vrouw, Maria Verstappen, zien we twee verschillende patroniemen optreden. Omdat zowel voornaam als familienaam gelijk zijn veronderstelt Genesis dat er een fout is gemaakt bij het patroniem. Het meest voorkomende patroniem is Jois Petrus en die naam wordt gehandhaafd in het gecorrigeerde dossier.

De familienamen Swinkels en Swenkels van de tweede vrouw worden beide gestandaardiseerd tot Swinkel. Er zijn echter drie verschillende voornamen: Adriana, Arnolda en Godefrida. De patroniemen Goord en Godefridus behoren beiden tot dezelfde standaard en zijn equivalent. In dat geval is er voor Genesis voldoende evidentie om de drie voornamen te combineren en in dit individuele geval te standaardiseren op de meest voorkomende naam Arnolda. De voornaam Godefrida is overigens waarschijnlijk een onjuiste interpretatie (of schrijffout) van het patroniem van de moeder door de pastoor in de doopakte van een kind.

Merk op dat bij het eerste huwelijk nu ook het kerkelijk huwelijk een plaats heeft gekregen omdat ook nog is vastgesteld dat met Godefridus en Gerardus dezelfde man wordt bedoeld.

Gerardus Thomas Verschuren

Getrouwd 1. op 07-05-1780 te Aarle-Rixtel, wonende te AR tot 1783

met Maria Jois Petrus Verstappen (6612), afkomstig uit AR <godefridus verschuren

en maria verstappen> [trouwboek rk kerk, Aarle-Rixtel]

<eerste gebod donderdag 22 april 1780 gerit thomas verschuuren uit AR,

geb. te AR, RK (schreef naam) en maria cornelis verstappen uit AR, geb. te Beek,

RK (schreef naam)> [schepentrouwboek, Aarle-Rixtel]

Getrouwd 2. als wedn op 23-05-1784 te Aarle-Rixtel, wonende te AR tot tussen 1797 en 1863

met Arnolda Godefridus Swenkels (4727), afkomstig uit AR

<eerste gebod donderdag 8 mei 1784 gerit verschuure, wednr van maria cornelis

verstappen uit AR, geb. te AR (schreef naam) en adriana goord swinkels uit AR,

geb. te AR (zette kruis)> [schepentrouwboek, Aarle-Rixtel]

Voorbeeld 2

In een bepaald geval werden de drie achtereenvolgende huwelijkspartners gepostuleerd:

1 - Petronella Verscuuren

2 - Johanna de Leeuw

3 - Petronella Vervuuren

Dit kwam omdat Verscuuren en Vervuuren in de naamstandaardisatie niet equivalent werden gemaakt. Indien we echter weten dat de familienamen met dezelfde voornaam genoemd zijn bij eenzelfde partner dan wordt -met soepeler regels- nogmaals de namen op mogelijke gelijkheid getest. In dit geval was de conclusie dat de namen voldoende op elkaar leken. De consequentie was wel dat het huwelijk met Johanna de Leeuw ongedaan moest worden gemaakt. Een nieuwe groepering en dossiëring was dus nodig.

III.6.2 Namen van gehuwde vrouwen

Laten we de onderstaande lijst eens bekijken. Het gaat om namen van een vrouw met de doopnaam Maria Johannes Canters. Zij trouwde met Hendrik van de Reyt en werd later weduwe.

Maria Johannes Canters

Maria Canters

Maria Hendrik van de Reyt

Maria van de Reyt

Vrouw Hendrik van de Reyt

Vrouw van de Reyt

Weduwe Maria van de Reyt

Weduwe Hendrik van de Reyt

Weduwe van de Reyt

Naast deze namen zijn er nog mogelijke combinaties waarbij de familienaam ontbreekt of waar naast Vrouw of Weduwe weer de doopnaam optreedt. (Maria Johannes, Vrouw Canters, Weduwe Canters). Het is duidelijk dat we in zulke gevallen niet alleen op de naam kunnen koppelen maar dat we rekening moeten houden met genoemde varianten.

Daarom worden in de controlefase dit type vermeldingen nader onderzocht en zo mogelijk bij elkaar gebracht. Dat noodzaakt tot een complexe analyse die hier niet aan de orde kan komen. We geven weer een voorbeeld:

Catharina Jaspers van de Laarschot huwde met Goord Aart Swinkels. Haar man overleed en zij hertrouwde voor de pastoor als Catharina Godefridus Swinkels, maar voor de schepenen als Catharina van de Laarschot, wed van Goord Aart Swinkels. Zij overleed als de vrouw van Mattheas van Stiphout. Genesis kwam hier door de analyse en interpretatie van de vermelding 'weduwe' goed uit:

(3945) Catharina Jaspers van de Laarschot

Algemeen vrouw, rk, analfabeet te Aarle

Getrouwd 1. tussen 1706 en 1771 tot 1771 met Goord Aart Swinkels (4595)

2. als wed op 23-02-1772 te Aarle-Rixtel, wonende te AR tot tussen 1772 en 1791

met Mattheus Stiphout van (4593), afkomstig uit AR <mattheus stiphout van

en catharina godefridus swinkels, wed> [trouwboek, rk kerk Aarle-Rixtel]

<eerste gebod donderdag 8 februari 1772 mattheus stiphout van uit AR, geb. te AR,

RK (zette kruis) en catharina laarschot van de, wed van goord aart swinkels

uit AR, geb. te AR, RK (zette kruis)> [schepentrouwboek, Aarle-Rixtel]

Overleden op 27-10-1791 te Aarle-Rixtel <nn, aangever: mattheas van stiphout,man>

[begraafboek gereformeerde kerk, Aarle-Rixtel]

Op 27-10-1791 is op het kerkhof begraven de vrouw van mattheas van stiphout,

eerst weduwe van wijlen goort aart swinkels, nalatende voorkinderen,

betaald aan kerkerecht 0:14:0

11-11-1771 1.0 vat rogge extra ordinaire voor mondkost [armenregister, Aarle-Rixtel]

IV.6.3 Overlijdens van partners en kinderen

Op grond van de dossiers kunnen we nieuwe feiten (eigenlijk hypothesen) introduceren met betrekking tot het overlijden van partners of kinderen. De aanname is dat bij hertrouwen de eerdere partner overleden moet zijn, en dat bij de geboorte van een kind, een eerder geboren kind met dezelfde naam eveneens overleden moet zijn. Na de introductie van deze nieuwe feiten volgen een gedeeltelijke hergroepering en dossiëring.

Voorbeeld

De volgende twee dossiers (in compacte vorm) resulteerden na de eerste groeperingsronde. Er is een huwelijk toegekend aan Jannetje Veuger (dossier 16) en niet aan de persoon met dezelfde naam (dossier 18).

(16) Jantjen Andries Veuger

Vrouw, gereformeerd, * 03-12-1713 te Meppel, dochter van Anerijes henderijcks Veugers (138),

tr. als jd 01-01-1733 te Meppel tot >1734 met Roeloff Klaas van der Meulen (140), jm, afkomstig uit

Haarlem, 1742<#<1813 te ?Meppel

Kind: Andries (32) * 03-06-1734 te Meppel

Voorts vermeld op: 28-02-1742 [Meppel]

(18) Jannetje Andries Veugers

Vrouw, gereformeerd, * 24-03-1715 te Meppel, dochter van Anerijes henderijcks Veugers (138),

1715<#<1815 te ?Meppel

Deze dossiers worden, nadat vastgesteld is dat beide kinderen dezelfde ouders hebben en het oudste kind dus overleden moet zijn en daarvoor een overlijdensgegevens is toegevoegd (#<1715!), uiteindelijk veranderd tot:

(16) Jantjen Andries Veuger

Vrouw, gereformeerd, * 03-12-1713 te Meppel, dochter van Andries Hendriks Veuger (138) en

Hendrikje Alberts Kuinder (139), 1713<#<1715 te ?Meppel

(18) Jentjen Andries Veuger

Vrouw, gereformeerd, * 24-03-1715 te Meppel, dochter van Andries Hendriks Veuger (138) en

Hendrikje Alberts Kuinder (139), tr. als jd 01-01-1733 te Meppel tot 1734<<1814 met

Roelof Klaas Van Der Meulen (140), jm, afkomstig uit Haarlem, 1742<#<1815 te ?Meppel

Kind: Andries (32) * 03-06-1734 te Meppel

Voorts vermeld op: 28-02-1742 [Meppel]

Merk ook op dat nu ook de moeder wordt genoemd. Bij de geboorte van beide dochters werd alleen de vader genoemd en er is geen direct verband tussen moeder en dochters in de archieven bekend. WŠl tussen de vader en moeder en dat werd in de controlefase ook verwerkt.

IV.6.4 Verfijningen van namen en data

Bij schaarse gegevens kunnen we in sommige gevallen op grond van dossiers van ouders, partners of kinderen een een beperkter tijdsinterval geven van geboorte-, huwelijks- en overlijdensdata. Soms ook is in een dossier de familienaam van de vader niet bekend maar de familienaam van een kind wel. Het hangt er namelijk vanaf in welke context deze familienaam genoemd is. De bekende familienaam kan dan aan de vader worden doorgegeven. Ook het omgekeerde, dat de familienaam van de vader aan het kind kan worden doorgegeven, komt voor.

We hebben hier slechts enige hoofdlijnen van controles gegeven. Er zijn er meer en ze vormen ‚‚n van de meest kritische onderdelen van het gehele reconstructieproces.

IV.6.5 Hergroeperen

Als consequenties van controles hebben we gesproken over het ongedaan maken van koppelingen en het opnieuw groeperen van gegevens. Ditzelfde doet zich ook voor als er nieuwe gegevens aan de bestanden worden toegevoegd. In dat laatste geval is er geen probleem met invoer en de eerste uitwerking van gegevens naar de analyse bestanden. Wanneer we echter in de groeperings- en dossiëringsfase komen, dan kan er een interactie op gaan treden met eerder afgeleide relaties en koppelingen. Dit is één van de moeilijkste maar ook meest intrigerende onderdelen van Genesis.

We gaan in Genesis als volgt te werk:

We ordenen onze hele verzameling weer op voornaam en behandelen de deelverzamelingen per voornaam. Zo'n deelverzameling op voornaam ordenen we weer op informatiewaarde en zoeken een nieuwe vermelding met de hoogste informatiewaarde. Van deze doelpersoon gaan we verder uit.en vergelijken alle andere records op naam, geboorte- en overlijdensintervallen, etc. Dit resulteert in een set compatibele records. We hebben dan twee mogelijkheden:

(a) De nieuwe vermelding heeft de hoogste informatiewaarde van deze set. In dit geval gaan we door met het intern vergelijken van de overige vermeldingen, zoals al eerder beschreven, en eindigen we met een set die geheel consistent is.

(b) Een oude vermelding (die eerder tot een andere groep behoorde) heeft de hoogste informatiewaarde. In dat geval gaan we onderzoeken of ons nieuwe record bij die al bestaande groep kan worden aangepast. Alhoewel de oude vermelding overeenstemt met de nieuwe vermelding behoeft dat namelijk voor de rest van de vermeldingen uit de bij de oude vermelding behorende groep niet het geval te zijn. Mocht de aansluiting mislukken dan vallen het oude record en de daarmee gekoppelde records alsnog af. Vervolgens proberen we hetzelfde voor de vermelding met de ‚‚n na hoogste informatiewaarde, enzovoort. Als, na een aantal mislukte pogingen tot aansluiting de nieuwe vermelding de dan hoogste informatiewaarde heeft, gaat het verder als onder (a), wat altijd succes moet hebben.

Nu kan na (a) of (b) het volgende gebeurd zijn:

de nieuwe informatie is afkomstig van een nieuwe persoon en be‹nvloedt de bekende gegevens op generlei wijze
de nieuwe informatie betekent een uitbreiding van de informatie van een bekende persoon en is niet in strijd met de bekende gegevens
de nieuwe informatie betekent een nieuwe interpretatie van de bestaande gegevens van een persoon en leidt tot een opsplitsing van een reeds gemaakte groepering van gegevens.

De eerste twee mogelijkheden geven ons geen enkel probleem (noch in de groeperings en noch in de dossiëringsfase), maar de derde mogelijkheid is werkelijk lastig. We moeten ons voorstellen dat we een groepering van gegevens hebben, welke door een nieuw gegeven opgesplitst wordt in twee delen. Het eerste deel vormt samen met de nieuwe informatie een nieuwe groep (en neemt daarbij eventueel zelfs ook nog weer andere groepen op!), maar daarbij blijven ook een aantal vermeldingen over. We lossen dit op door deze overblijvende vermeldingen weer als nieuwe gegevens te interpreteren en alszodanig te behandelen.

Als we nu een nieuwe vermelding opnieuw hebben ingedeeld, dan gaan we binnen de verzameling met dezelfde voornaam zoeken naar een volgende nieuwe vermelding (welke nu ook kan resteren uit een opsplitsing van een oude groep!) om die in te delen. Dit gaat door tot tot alle vermeldingen met die voornaam zijn gegroepeerd. Op deze wijze worden alle verzamelingen op voornaam, waarin een nieuwe vermelding aan is toegevoegd, verwerkt.

Na deze hergroeperingsfase worden de dossiers aangepast van personen waarbij iets gewijzigd is. Daartoe worden eerst alle oude verwijzingen naar deze persoon in de dossierbestanden verwijderd om vervolgens opnieuw volgens de nieuwe interpretatie te worden gevuld. Het is tenslotte mogelijk om een uitvoer te vragen van personen waarbij iets is veranderd. Dat geeft direct een eenvoudig inzicht in wat Genesis met de nieuwe gegevens heeft gedaan.

Het enorme voordeel van deze werkwijze is dat we ons louter concentreren op die dossiers die door nieuwe informatie mogelijk gewijzigd zijn. Het zou uiterst inefficiënt zijn als we bij enige nieuwe gegevens, of bij gewijzigde interpretaties van bestaande gegevens, de totale analyse geheel opnieuw zouden moeten doen. Het is de enige werkwijze waarmee de gekozen iteratieve benadering uitgevoerd kan worden. We zouden kunnen stellen dat dit erg lijkt op de werkwijze die we zelf in de praktijk volgen.

IV.7 RAPPORTAGE

De uiteindelijke dossierbestanden vormen de neerslag van de familiereconstructie die door Genesis wordt voorgesteld. Alle genealogiën en/of kwartierstaten die op basis van het beschikbare materiaal te maken zijn kunnen nu automatisch opgesteld worden. Genesis kent verschillende uitvoermogelijkheden. Per persoon, genealogie of kwartierstaat kan in diverse graden van volledigheid uitvoer plaatsvinden: Van een compacte weergave van de gegevens tot een volledige weergave met alle orginele bronteksten en bronvermeldingen erbij, op het beeldscherm, via de printer of naar een file voor verdere tekstverwerking.

Uiteraard is het ook mogelijk om op basis van de dossierbestanden allerlei statistische, demografische informatie af te leiden voorzover de oorspronkelijke gegevens en de betrouwbaarheid van de afleidingen dit toestaan. Genesis biedt deze optie niet zelf, daarvoor zullen al dan niet reeds bestaande aparte programma's gebruikt moeten worden.

IV.8 GEBRUIKERS INTERVENTIE

Automatische familiereconstructie kan niet foutloos gaan, daarom moet de gebruiker de mogelijkheid hebben om de resulaten te beoordelen en waar nodig corrigerend op te treden. Daarbij zijn twee situaties te onderscheiden.

De eerste situatie heeft betrekking op gegevens waarbij Genesis zelf heeft besloten er niets mee te doen. Dat zijn vermeldingen waarbij te weinig informatie over een persoon bekend is om zinvol in familiereconstructie op te nemen (omdat er veel te veel mogelijke alternatieven zijn). Voorbeelden zijn: a) alleen vermelden van voornaam, 2) alleen vermelden van initialen en 3) het ontbreken van de voornaam (het kind van), etc.. Als laatste stap echter laat Genesis de mogelijkheid aan de gebruiker om over deze gevallen zelf een oordeel uit te spreken. Voor alle weinig informatieve vermeldingen die resteren laat Genesis zien welke bestaande dossiers ermee in overeenstemming zijn. Soms is dat geen enkel ander dossier, soms is het er juist ‚‚n en soms zijn het er meerdere. In de gevallen van ‚‚n of meer passende dossiers kan de gebruiker kiezen welke hij het meest passend vindt (maar hij hoeft niet), bijvoorbeeld op grond van informatie die Genesis zelf niet gebruikt. Ook kan de gebruiker besluiten in geval van precies ‚‚n passend dossier dit type koppeling automatisch te laten verlopen.

De tweede situatie heeft betrekking op fouten die door Genesis zijn gemaakt (bijvoorbeeld omdat belangrijke informatie niet door Genesis in de huidige vorm wordt gebruikt zoals financiële gegevens, precieze woonplaats, beroep etc.). Dan zou een gebruiker zelf de gewenste koppelingen moeten aanbrengen. Daartoe kan per dossier een lijst bronvermeldingen worden gegenereerd waarvan de gebruiker kan zeggen dat ze absoluut niet bij deze persoon behoren of absoluut wel bij een andere persoon (via identificatiecode). Voor gegevens die absoluut niet bij een persoon behoren wordt een harde ontkoppeling aangebracht, Genesis kan deze gegevens niet meer bij die persoon onderbrengen ook al zijn ze consistent. Voor gegevens die absoluut wŠl bij een persoon behoren controleert Genesis niet meer op strijdigheid (ook al zouden gegevens strijdig kunnen zijn door bijvoorbeeld onjuiste gegevens in de oorspronkelijke bron). De onjuiste gegevens worden ontkoppeld en een nieuwe groepering en dossiervorming vindt plaats. Althans, zo moet het gaan, want dit onderdeel is nog in ontwikkeling.

V CONCLUSIE

De ontwikkeling van een systeem dat grotendeels automatisch familiereconstructies kan uitvoeren is in de vorm van Genesis succesvol geweest. E‚n van de meest verheugende bevindingen is dat de principes waarop Genesis is gebaseerd zo bruikbaar zijn dat er nog geen problemen zijn opgetreden waarvoor geen oplossing denkbaar was. Zelfs voor complexe problemen, zoals de variaties in de naam van een vrouw, zijn elegante oplossingen gevonden die het systeem niet ingewikkelder maakten. De strak doorgevoerde modulaire, seriële opzet heeft voortdurend vruchten afgeworpen.

Resumerend zijn belangrijke procedurele kenmerken van Genesis:

(1) onderscheid in drie onafhankelijke bestandsnivo's: De invoerbestanden, de analysebestanden en de dossierbestanden

(2) brongetrouwe gegevensinvoer uit vele brontypen

(3) persoongerichte uitwerking/expansie van gegevens

(4) gestandaardiseerde gegevensstructuur per persoon

(5) corpusgebaseerde naamstandaardisatie

(6) minimum aantal afgeleide personen als convergentiecriterium

(7) primaire koppeling voor echtparen

(8) groepering via voornaam op volgorde van informatiewaarde van een vermelding

(9) dossiergebaseerde iteratieve controleprocedure

(10) lokale procedure voor hergroepering

(11) beperkte gebruikers interventie

Op alle nivo's van het systeem zijn interessante ervaringen opgedaan die stimulerend zijn voor verder onderzoek èn voor beleidsontwikkeling. Voortgaand onderzoek is gewenst naar optimale gegevensstructuren voor invoerbestanden, zo mogelijk om te komen tot landelijke standaardisering. Heel veel interessant werk is nog te doen rond standaardisatie van namen, juist in relatie tot het beschikbaar zijn van zeer grote bestanden voornamen en familienamen. Hierbij zou het gecoordineerd aanleggen van bestanden met historische naamvormen (met plaats en datum van gebruik) nuttig kunnen zijn. De standaardisatie van spelling van plaatsnamen is in Genesis nog niet aangevat maar zou op dezelfde basis kunnen gebeuren als voornamen en familienamen.

Genesis maakt ook nog lang geen uitputtend gebruik van informatie over plaats, beroep etc. (omdat deze gegevens zeer variabel kunnen zijn). Juist bij onzekere koppelingen kan dit toch sturend werken. Verder is Genesis ruim in het gebruik van datumintervallen voor geboorte, trouwen en overlijden door de keuze voor het gebruik van absolute uiterste waarden. Waarschijnlijkheidsverdelingen kunnen, weer voor de zwakkere koppelingen, mogelijk tot betere beslissingen leiden. Voortgaande testprojecten kunnen hierbij een belangrijke rol vervullen.

Genesis is geimplementeerd op een PC 486 DX-II en geschreven in een Xbase taal8. De gebruikersvriendelijkheid is groot, maar tal van verbeteringen op technisch databasenivo zijn mogelijk. Dat was echter geen speciaal doel bij de ontwikkeling. De principes van Genesis hebben altijd centraal gestaan: Genesis is gebruikervriendelijk en ziet er goed uit, maar is geen commercieel product. Voorlopig is alleen de inzet bij projekten te voorzien waarbij begeleiding mogelijk is omdat elk project toch speciale software aanpassingen in Genesis zal vragen en er bovendien nog steeds sprake is van een ontwikkelingstraject van Genesis.

Dit artikel heeft een globaal overzicht van Genesis gegeven als een systeem waarmee vergaand automatisch familiereconstructie mogelijk is. Op verschillende onderwerpen kon daarom helaas niet uitgebreid worden ingegaan. De hoop is wel dat de ontwikkeling van Genesis het begin zal zijn, niet alleen van verdere initiatieven in Nederland, maar ook van meer publicaties op dit uitdagende terrein.

Literatuur

J. Atack, F. Bateman, and M. Eschelbach Gregson, 'Matchmaker, Matchmaker, Make Me a Match' Historical Methods vol.25 (1992) 53-65.

G. Bouchard and C. Pouyez, 'Name Variations and Computerized Record Linkage', Historical Methods vol.13 (1980) 119-125.

G. Bouchard, 'Current Issues and New Prospects for Computerized Record Linkage in the Province of Qu‚bec', Historical Methods vol.25 (1992) 67-73.

G. Guth, 'Surname Spellings and Computerized Record Linkage', Historical Methods Newsletter vol.11 (1976) 10-19.

P.J. Meertens, H. Buitenhuis en E.N. Palmboom (red.), Nederlands Repertorium van Familienamen I-XIV (Van Gorcum, Assen/De Walburg Pers, Zutphen, 1963-1988).

L. Nygaard, 'Name Standardization in Record Linkage: An Improved Algorithmic Strategy', History and Computing vol.4 (1992) 63-74.

J. van der Schaar, D. Gerritzen en J.B. Berns, Spectrum voornamenboek (Spectrum, Utrecht 1992).

T. Schijvenaars, 'Datamodelling of sources in Dutch historical research projects', report vakgroep Computer en Letteren, (Utrecht 1993).

R.S. Schofield, 'Automatic family reconstruction: The Cambridge experience', Historical Methods vol.25 (1992) 75-79.

M. Thaller, 'Methods and Techniques of Historical Computation', in: P. Denley en D. Hopkin (Eds), History and Computing (Manchester University Press 1987) 147-156.

J.E. Vetter, J.R. Gonzalez, and M.P. Gutman, 'Computer-Assisted Record Linkage Using a Relational Database System', History and Computing vol.4 (1992) 34-51.

E.A. Wrighley, Identifying People in the Past (Arnold, London 1973).

E.A. Wrighley and R.S. Schofield, 'Nominal record linkage by computer and the logic of family reconstruction', in: Wrighley, E.A. (Ed), Identifying People in the Past Arnold, (London 1973) 64-101.

1 In het kader van het Meierij project, met dank aan Dr G. Trienekens voor het beschikbaar stellen van het materiaal.

2 De relatie broeder wordt niet expliciet behandeld. Dit is een niet-principiële beperking die aan Genesis in dit stadium is opgelegd. Dit geldt voor alle andere relaties dan tussen ouder en kind.

3 De beide bestanden zijn welwillend beschikbaar gesteld voor ons onderzoek door het P.J.Meertens-Instituut (KNAW) te Amsterdam.

4 Veel ervaring over fonetische transcriptie van namen zal binnenkort beschikbaar komen via het Europese LRE Onomastica project (voor vigerende namen).

5 De skeletvorm van een naam is, evenals het gehele naamstandaardisatieproces, verwant met de methode die Huber (VU Amsterdam) gebruikt bij het herschrijven van middelnederlandse teksten.

6 Een interessant nevenproduct van een naamstandaardisatie algoritme zou software kunnen zijn die uitgaande van electronische versies van het Voornamenboek en het Nederlands Repertorium van Familienamen voor een voornaam of familienaam een lijst met meest gelijkende namen genereert. Bij de voornaam kan extra informatie gegeven worden over ethymologie en varianten van een voornaam. Voor een familienaam kan de frequentie van voorkomen, in 1947, per provincie en Amsterdam, Rotterdam en Den Haag worden gegeven. Dit kan een handige hulp voor een genealoog zijn.

7 Met dank aan Doreen Gerritzen voor het beschikbaar stellen van de gegevens, en meer in het algemeen voor de waardevolle discussies over naamstandaardisatie.

8 Genesis is geschreven in Quicksilver maar zou eenvoudig omgezet kunnen worden in het meer gangbare Clipper. Alle files hebben een dBase formaat. Genesis bestaat uit een menushell die afzonderlijke (gecompileerde) programma's aanroept. Een grote harddisk capaciteit is een vereiste maar tegenwoordig geen probleem. De reconstructie van het Aarle-Rixtel bestand (20000 persoonsvermeldingen) behoefde 40 Mb, en duurde 24 uur op een PC 486 DX-II.

Bijschriften figuren

Figuur 1.

Entiteitsrelatiediagram van de invoerbestanden van Genesis. Een open cirkel betekent nul, een dwarsstreepje betekent ‚‚n, en een driepoot betekent meerdere associaties. Zo kan een vermelding in ARCHIEF geassocieerd zijn met 0, 1 of meerdere vermeldingen in de geboorteakten van de OBS. E‚n geboorteakte in de OBS kan op zijn beurt geassocieerd zijn met 0, 1 of meerdere tekstregels.

Figuur 2.

Entiteitsrelatiediagram van de analysebestanden van Genesis. Het ARCHIEF bestand is hetzelfde als bij de invoerbestanden. Per persoonsvermelding is er een verwijzing naar dat bestand. De VOORNAAM en FAMILIENAAM bestanden worden gebruikt voor de naamstandaardisatie.

Figuur 3.

Entiteitsrelatiediagram van de dossierbestanden van Genesis. Alhoewel diverse bestanden hier dezelfde naam hebben als de analysebestanden hebben ze een verschillende structuur. Geboorte- en overlijdensgegevens zijn bijvoorbeeld nu ook in het PERSOON bestand opgenomen omdat ze enkelvoudig zijn. Voor de (meervoudige) beroepsgegevens is een eigen bestand gecreëerd. Het ARCHIEF bestand is weer hetzelfde bestand als in de andere diagrammen. In tegenstelling tot de analysebestanden heeft nu echter elk gegeven een eigen verwijzing naar het ARCHIEF bestand. STAMBOOM en KWARTIERSTAAT bestanden bevatten informatie voor het genereren van kwartierstaten en stambomen.

Summary

G. Bloothooft, Automatic Family Reconstruction

This paper describes a new system, Genesis, for automatic family reconstruction on the PC. A main feature is the recognition of three different levels of datarepresentation, one for the source material, one for a standardized, person-oriented form of the orginal data, and one for the linked and condensed person information. Genesis can handle data from various types of sources. All relevant information is first transformed to a standardized source-independent form. Name standardization is roughly sketched but the description of the key algoritm, based on dynamic programming using digrams, is postponed to a next paper. Pocketing of records is done on the basis of the first name, since surname information is frequently missing in Dutch records from before 1810. The subsequent linking process (link by link) is gouverned by the information content of a person in a record and uses first name, patronymic and surname, names of parents and partners, date intervals for birth, marriage, and burial, and in some cases place information. After the linkage stage, a report summarizes all available information per person. On the basis of these reports, automatic control routines compare the reports to improve the linkage result. User intervention is allowed at the stage of name standardization and in a final stage, checking person reports and initiating re-linkage. The system allows for local updates of the links (with respect to new data and during re-linkage).

Over de Auteur

Gerrit Bloothooft (1952) studeerde Technische Natuurkunde in Delft en promoveerde in 1985 aan de Vrije Universiteit van Amsterdam op het proefschrift 'Spectrum and Timbre of the Singing Voice'. Hij is sinds 1982 verbonden aan de Universiteit Utrecht, eerst bij de vakgroep Fonetiek en sinds 1986 als docent bij de vakgroep Computer en Letteren. Hij is binnen de specialisatie Taal- en Spraakautomatisering verantwoordelijk voor Spraaktechnologie, in het bijzonder de automatische spraakherkenning.