gepubliceerd in LINK 12-3 (2001), 40-44. Uitgebreid rond Nooteboom.


In de naam van ...

7. Familienamen

 

Gerrit Bloothooft

Hoeveel verschillende familienamen bestaan er in Nederland? In 1947 vinden we bij de volkstelling zo’n 146.000 verschillende namen [1]. Dat contrasteert met de ongeveer 10.000 familienamen die door Johan Winkler [2] in zijn standaardwerk ‘De Nederlandsche geslachtsnamen in oorspong, geschiedenis en beteekenis’ (1885) worden besproken. In 1955 baseerde Huizinga [3] zich op een deel van de namen van de volkstelling 1947 - hij kon ze niet allemaal krijgen - en publiceerde een Encyclopedie van Namen met 20.000 familienamen. Dit alles wijst er op dat het in het voor-computer tijdperk eigenlijk niet mogelijk was om een volledig overzicht te krijgen, en men claimde dat ook niet. Desondanks kan je   alleen maar met de allergrootste bewondering kijken hoe een man als Winkler met de beperkte mogelijkheden die er in de 19e eeuw waren een hoeveelheid informatie heeft weten te verzamelen, in te delen en te verklaren, die tot op heden nooit in een werkelijk verbeterde versie is verschenen. Huizinga verdubbelde weliswaar het aantal familienamen, maar het lijkt erop dat die vooral op rekening van toegevoegde naamsvarianten kunnen worden geschreven. Ik moet een slag om de arm houden, want noch de namenregisters van Winkler noch van Huizinga zijn gescand en elektronisch beschikbaar gemaakt. Het wordt hoog tijd dat dit eens gedaan wordt.

Het verschil tussen de 146.000 familienamen die in 1947 zijn geteld en de 10-20.000 familienamen die in de literatuur worden beschreven, kan erin zitten dat zeldzamere namen in de laatste verzamelingen buiten beschouwing zijn gelaten, a) omdat ze moeilijker op te sporen zijn of   b) omdat het veel inspanning kost om de weinig frequente namen allemaal te beschrijven. Wat dat betreft is het nuttig om te weten dat 1/3 van die 146.000 familienamen maar één naamdrager heeft en de helft minder dan vijf. Kortom, slechts 70.000 familienamen hebben meer dan vijf naamdragers. Eigenlijk denk ik dat ook het verschil tussen 70.000 en 10-20.000 te verklaren is door het grote aantal etymologisch gezien minder interessante varianten op eenzelfde type familienaam, en dat Winkler indertijd al een bijzonder goede keus heeft gedaan met het bespreken van 10.000 familienamen.

Dat 10.000 familienamen een goed uitgangspunt is, zou ik hier willen uitleggen aan de hand van het totaal van 146.000 familienamen uit de volkstelling van 1947 omdat ik die namen (en hun verdeling over de provincies en grote steden) elektronisch beschikbaar heb gekregen van het Meertensinstituut, waar de verzameling bekend is als Nederlands Repertorium van Familienamen.

Eerst de meest frequente Nederlandse familienamen. De top-8 is

Naam Aantal naamdragers
De Jong 55.256
De Vries 49.298
Jansen 49.213
Van d. Berg    37.678
Bakker 37.483
Van Dijk   36.578
Visser 34.721
Janssen 32.824, maar op nummer 1 als we de naam samennemen met Jansen

Van de 146.000 familienamen zijn er 20.419 met een voorgaand lidwoord en/of voorzetsel. Ik verwijderde deze lidwoorden/voorzetsels omdat ik hier niet zo geinteresseerd ben in de naamvarianten die hierdoor ontstaan. In totaal zijn er 128 verschillende typen van deze voorvoegsels, maar de meesten zijn weinig frequent. De top-8 bestaat uit (met bij elk voorzetsel/lidwoord het aantal naamdragers plus de meest frequente namen)

Lidwoord/voorzetsel Aantal Namen Meest frequente namen
Van 10.651 Dijk, Leeuwen, Beek, Vliet, Dam, Veen, Wijk, Loon
Van d. [de, der, den] 3451 Berg, Linden, Meer, Heuvel, Veen, Broek, Heyden, Wal
De 3203 Jong, Vries, Boer, Groot, Wit, Graaf, Haan, Bruin
Von 404 Hebel, Berg, Piekartz, Burg, Meyenfeldt, Oven
Ten 340 Pierik, Westeneind, Hof, Hoonte, Rouwelaar, Damme
Den 311 Houter, Doop, Haas, Boogert, Haak, Bezemer, Bouwmeester
Ter 273 Hove, Schiphorst, Wengel, Wolbeek, Halle, Laan, Hark, Pelle
Te 226 Morsche, Mebel, Plate, Kolste, Braake, Kloeze, Rietstap, Lintum

De varianten van ”v.d.” worden niet onderscheiden in het NRF, omdat de registraties oorspronkelijk niet consequent uitgeschreven waren. Er zijn ook familienamen waarbij het voorzetsel of lidwoord aan de naam is gehecht. Uytenboogaard en Devries bijvoorbeeld. Omdat bij dit soort namen allerlei splitsingsvraagstukken opdoemen ga ik er niet verder op in.

Voorts zijn er 9.038 meervoudige namen. De top-8 in naamdragers zijn:

Om weer tot een reductie van het aantal familienamen te komen zijn deze meervoudige namen (de langste is Oetgens van Waveren Pancras Clifford) gesplitst in onderdelen. Soms komen de naamdelen ook zelfstandig voor, soms niet.

Na deze operaties resteerden 132.120 enkelvoudige familienamen. Nu moet de spellingsvariatie in de namen bekeken worden. Dat is een lastig probleem, omdat we dan moeten beslissen wat spellingsvarianten zijn. Spellingsvarianten kunnen in de praktijk van wezenlijk belang zijn om familie(takken) te onderscheiden, maar omdat alle naamencyclopediën slechts namen indelen en verklaren, en niet ingaan op genealogische relevantie, kunnen we hier een vrij vergaande spellingsnormalisatie proberen. Ik zal die niet in detail uit de doeken doen. Het komt neer op een uitspraakachtige weergave. Als ik die procedure uitvoer, dan vermindert het aantal familienamen met een kwart en resulteren nog 94.794 verschillende namen. Dat zijn er nog te veel. De namen die daarbinnen nog als variant gezien kunnen worden, zijn echter veel moeilijker met algemene algoritmen te vinden. Ik geef een voorbeeld.

De familienaam Angenent laat zich door Winkler verklaren als Ang(d)en Ent (Aan het eind). We vinden in het NRF de volgende 12 varianten (alfabetisch):

Winkler noemt alleen Angenent; Huizinga Angenent, Aengenent, Aangenendt, Agenent, Angeneind. Als ik de 12 varianten semi-fonetisch terugbreng, dan blijven over: Angenent, Aengenent, Aengenant, Agenent, Angeneind. Dat is een aardige overeenkomst met Huizinga, alhoewel hij Aangenendt meer heeft en ik Aengenant (die maar 1 maal voorkwam overigens). Gezien een opmerking in zijn voorwoord heeft hij, om de omvang van zijn boek te beperken, inderdaad zo’n uitspraakgeoriënteerde beperking aangehouden.

Ik kan nog verdere clusteringtechnieken toepassen die gebaseerd zijn op naamvergelijkingen waarbij “geleerd” wordt van veelvoorkomende varianten. In het geval van Angenent is de clustering succesvol en komen alle varianten, behalve Agenent bij elkaar. De n-deletie werd te rigoureus bevonden door het algoritme. Anderzijds overgeneraliseert een clusteralgoritme ook vaak; in dit geval werd Angenot erbij geplaatst.

Als tweede voorbeeld neem ik de ons welbekende naam Nooteboom. In het register van Winkler staan alleen Noteboom en Neuteboom. Huizinga geeft daarnaast Nooteboom. In het NRF komen echter voor (aantal naamdragers tussen haakjes plus de meest frequente provincie)

Vijftien varianten derhalve, waarvan Winkler en Huizinga er respectievelijk 2 en 3 noteerden, wat terecht lijkt in verband met de regionale spreiding en hun keuze om buitenlandse namen niet op te nemen. Overigens lijkt de beste keuze dan Notenboom (ZH/NB), Neuteboom (Ov) en Notenbomer (Gr/Oostfriesland). 

Deze steekproefsgewijze observaties suggereren dat de 10.000 familienamen van Winkler een uitstekende keuze waren. In de werkelijkheid vigeren er weliswaar 10 tot 15 maal meer namen, maar deze zijn waarschijnlijk goed te verklaren zijn uit al dan niet rigoureuze en vaak laagfrequente spellingsvarianten en buitenlandse namen.

Voor het herkennen van al die varianten zijn slimme clusteringstechnieken nodig, waarbij de moeilijkheid is een goede balans te vinden tussen zoekresultaat en overclustering. Ik heb samen met het bedrijf Human Inference een test gedaan om voor 45 familienamen alle verwante namen uit het genoemde bestand van 132.120 namen te vinden. Allerlei verschillende typen algoritmen werden gebruikt. Als norm werd een handmatig bepaalde clustering gebruikt. Er werd niet alleen geteld hoeveel van deze namen door het algoritme werden gevonden, maar ook hoeveel namen er te veel werden gevonden. Er werd als volgt een score berekend: GEVONDEN / (NORM + TE VEEL). Een score van 0.50 kon worden behaald als de helft van de namen werd gevonden, of als weliswaar alle namen werden gevonden, maar ook evenveel onbedoelde namen. Er was geen beste algoritme. Op de ene naam deed het ene algoritme het beter, op een andere naam een ander. Zelden werd de maximale score 1.0 behaald. Gemiddeld werd ongeveer 0.50 gescoord door het beste algoritme voor een naam. Ik ga nog maar eens met Human Inference rond de tafel zitten om te kijken hoe we het beste van de verschillende algoritmen kunnen combineren.

Bibliografie

[1] Nederlands Repertorium van Familienamen,  I-XIV. Uitgegeven door het P.J. Meertens-Instituut van de Koninklijke Nederlandse Akademie van Wetenschappen onder redactie van P.J. Meertens, H. Buitenhuis en E.N. Palmboom. Assen, Van Gorcum / Zutphen, De Walburg Pers, 1963-1988.

[2] Winkler, J. (1885) De Nederlandsche geslachtsnamen in oorspong, geschiedenis en beteekenis. Tjeenk Willink, Haarlem; herdruk Regio Boek Neerijnen.

[3] Huizinga, A. (1955) Encyclopedie van namen. A.J.G. Strengholt, Amsterdam.

[4] Ebeling, R.A. (1993) Voor- en familienamen in Nederland. Geschiedenis, verspreiding, vorm en gebruik. Centraal Bureau voor Genealogie.

[5] Het Meertensinstituut is bezig met het maken van een on-line Nederlandse Familienamen Databank. Deze is gebaseerd op de namen van de volkstelling van 1947 en hun verspreiding over de provincies. Meer dan 15.000 namen zijn nu ingevoerd, gecategoriseerd en deels voorzien van een naamsverklaring en/of naamkundig-genealogische informatie. Kijk op <http://www.meertens.knaw.nl/NFD/nfd.html>