artikel gepubiceerd in LINK 10.4, 12-16 (april 1999)

In de naam van ...

1. namen en naamdragers

Gerrit Bloothooft

Recent kreeg ik de beschikking over de eerste voornaam van bijna alle kinderen die in 1996 en in 1997 in Nederland geboren zijn. Dat is bijzonder. Er is in Nederland nog nooit gepubliceerd over de naamkundige eigenschappen van de namen van alle kinderen die in een jaar geboren zijn. Dat komt waarschijnlijk omdat er lange tijd helemaal geen electronische bestanden van bevolkingsgegevens beschikbaar waren en toen die er wel kwamen is centrale registratie, zo die al gerealiseerd werd, aan strenge eisen met betrekking tot verspreiding van gegevens gebonden. Daarnaast speelt een belangrijke rol dat het naamkundig onderzoek in Nederland beperkt van omvang en traditioneel van aard is.

Ik werk al vele jaren samen met Doreen Gerritzen, de Nederlandse autoriteit op voornaamgebied, in verband met onderzoek aan het koppelen van historische gegevens op eigennaam. Dat is een onderwerp waar ik nog wel eens avonden mee vul. Welnu, Doreen wees me op een internetpagina van de Sociale Verzekeringsbank waarin een top tien van Nederlands voornamen voorkwam. Toen ik die pagina las realiseerde ik me direct dat de SVB een buitengewoon interessante bron kon zijn. Welke Nederlandse ouder zou zijn of haar recht op kinderbijslag laten schieten? Dat betekende dat de SVB waarschijnlijk een bestand bezat van vrijwel alle Nederlandse kinderen. Ik nam contact op met de SVB en men was bereid mij (/UiL-OTS) een bestand van voornamen, het geslacht en de frequentie van voorkomen te geven voor wetenschappelijk onderzoek.

Waarom is zo'n bestand nu zo interessant? Ten eerste geeft het bestand een volledig beeld van de moderne voornaamgeving. Het toont welke namen tegenwoordig bij voorkeur aan kinderen worden gegeven en we kunnen o.a. onderzoeken welke eigenschappen deze namen taalkundig en fonetisch hebben, welke invloed we zien van het multiculturele karakter dat Nederland steeds meer krijgt, etc. Daarnaast vormt het bestand een ideale referentie voor een vergelijking met steekproeven uit voorgaande jaren, met vergelijkbare bestanden uit andere landen en met toekomstige bestanden. Dit opent ongekende mogelijkheden voor vergelijkend onderzoek in tijd en in plaats. Natuurlijk zal een naamkundige graag nog meer informatie willen hebben, over de eventuele tweede of verdere voornaam, over de leeftijd en maatschappelijke positie van de ouders, over de geboorteplaats van het kind, over de namen van broertjes en zusjes. De nieuwsgierige wetenschapper zou dan echter al te gemakkelijk privacy gevoelige grenzen overschrijden die in de wet op de persoonsregistratie terecht getrokken zijn. Laten we eerst maar eens zien wat de eerste voornaam te vertellen heeft, dat is interessant genoeg.

Het is mijn bedoeling om in deze en komende LINKs steeds een korte bijdrage te schrijven over een aspect van het bestand. Voor dit nummer koos ik de relatie tussen naam en aantal naamdragers. Voor ik daar op inga moet ik eerst het bestand wat beter beschrijven. Het voornamenbestand omvat de namen van kinderen die in 1996 en in 1997 geboren zijn, dat zijn 203.877 jongens en 193.690 meisjes. Het opmerkelijke is dat volgens het Centraal Bureau voor de Statistiek er in 1996 97.576 jongens en 91.945 meisjes geboren zijn (voor 1997 zijn er ten tijde van schrijven nog geen volledige gegevens). Als we de getallen van het SVB door twee delen en vergelijken met de CBS gegeven dan blijkt dat er voor meer kinderen kinderbijslag wordt gevraagd dan er kinderen in Nederland geboren zijn. Waarschijnlijk kan dat in technische zin. In ieder geval kunnen we concluderen dat het SVB bestand vrijwel volledig moet zijn. Een opmerkelijk zijlijntje is dat er in Nederland al jaren 5% meer jongens dan meisjes geboren worden. Een bekend demografisch feit maar 5% is wel veel. De 203.877 jongens uit het SVB bestand kregen in totaal 15.788 verschillende voornamen, de 193.690 meisjes kregen 19.578 verschillende voornamen. Dat er relatief meer verschillende voornamen aan meisjes worden gegeven is ook een zeer oud verschijnsel. Ik bedoel met verschillend overigens elk verschil in spelling. Tommy, Tommie, Thommi beschouw ik dus als verschillend alhoewel de namen dezelfde uitspraak hebben. Over spellingsvariatie, over stammen en suffixen en over grondvormen zullen we het een andere keer nog wel hebben.

Elke voornaam in het bestand kent een aantal naamdragers (frequentie van voorkomen). Als we de namen per geslacht ordenen vanaf de naam met de meeste naamdragers tot de namen met precies één naamdrager dan krijgen we bovenaan de bekende top 10 van voornamen. Bij de jongens staat in 1996/97 Thomas met 2346 naamdragers bovenaan, bij de meisjes is Laura als naam van 2247 kinderen het meest populair. Waar ik me nu op wil concentreren is het aantal namen dat precies één keer voorkomt, precies twee keer voorkomt, precies drie keer voorkomt, etc. Kortom ik bestudeer het aantal voornamen met een bepaald aantal naamdragers. Hieronder staat voor jongens het begin en einde van de lijst.

aantal naamdragers	aantal namen
1	9726
2	2067
3	855
4	487
5	323
6	226
7	188
8	165
9	125
10	91
...	...
2346	1

Heel veel van de in totaal 15.788 namen komen dus maar weinig voor. Ik wil nu de relatie tussen het aantal naamdragers en het aantal namen die dat aantal naamdragers hebben wiskundig en grafisch weergeven. Ik zou grafisch op de horizontale as het aantal naamdragers en langs de vertikale as het aantal namen met dat aantal naamdragers willen uitzetten. De variatie is langs beide assen behoorlijk groot, het aantal naamdragers varieert tussen 1 en 2346 (Thomas) en het aantal namen tussen 9726 en 1. In zo'n geval zijn logaritmische assen vaak een uitkomst. We zetten dan log(namen) uit tegen log(naamdragers). Een complicatie is nog dat er langs de horizontale as (hogere) aantallen naamdragers zijn die in ons bestand niet voorkomen. We lossen dit op door te middelen (over logaritmische intervallen van aantal naamdragers; het bijbehorend aantal namen duikt daarom voor hogere aantallen naamdragers dan ver onder de 1). Hoe het ook zij, de onderstaande figuur is het resultaat. Omdat de resultaten vrijwel op een rechte lijn blijken te liggen is ook de best passende lijn door de punten getrokken. De wiskundige functie van deze lijn is n(a) = 6635 a ^-1.72 (a is het aantal naamdragers, n(a) het aantal voornamen met a naamdragers, 6635 is de modelmatige n(1)).

LINK1-figuur.jpg (15122 bytes)

Ik vind de uitstekende fit met de rechte lijn (die ook voor meisjes wordt gevonden) buitengewoon intrigerend, maar misschien moet je daar een natuurkundige voor zijn. Elke ouder denkt met het geven van een voornaam aan een kind een unieke beslissing te nemen, maar over de gehele populatie van geborenen blijkt er opeens een fraai wiskundig verband. Uiteraard wordt die 'unieke' beslissing ingegeven door een samenspel van tal van factoren waaronder het al dan niet vernoemen van familie of bekenden, het volgen van populaire namen of juist niet, het kiezen uit cultureel bepaalde subverzamelingen van voornamen ('echte' nederlandse naam, fries, arabisch, engels), sociale associaties van een naam, de prettige klank van de naam, etc. Er worden in de naamkundige literatuur wel verbanden gelegd tussen gelijksoortige verschijnselen en lexicale theoriën. Dat zijn de uitwerkingen van de wet van Zipf (rangorde maal frequentie van woorden in een tekst is constant) door Mandelbrot, toegepast op naamkundige grootheden. Het onderscheidende karakter van woorden in een tekst zou dan vergelijkbaar moeten zijn met het onderscheidende karakter van eigennamen tussen personen. Voor dat laatste is zelfs misschien nog meer te zeggen dan voor het eerste, maar er ontbreekt vooralsnog een modelmatige uitwerking. Die zou een antwoord moeten geven op de vraag welke naamgevingsmechanismen veronderstelt moeten worden om een betrekkelijk eenvoudige wiskundige relatie zoals n(a) = 6635 a ^-1.72 te verklaren. Als we die kennen dan zouden we wellicht ook toetsbare voorspellingen kunnen doen over toekomstige naamkundige ontwikkelingen. Een intrigerend idee.

10/05/98