Thema wiskunde en statistiek

Een van de onderwerpen binnen dit thema is de statistische extreme waardentheorie. Deze theorie heeft veel praktische toepassingen in situaties waar dingen kapot gaan. Niet door geleidelijk verval, maar door een plotselinge overbelasting, zoals extreme waterstanden aan de kust. Hoe hoog moeten de dijken gebouwd worden om het risico op doorbraak acceptabel te houden?

Binnen dit thema worden ook twee presentaties door het CBS verzorgd, dat in 1999 honderd jaar bestaat. In die honderd jaar heeft de steekproeftheorie zich steeds verder ontwikkeld en het CBS heeft daar zeker aan bijgedragen. Een tweede onderwerp waar binnen het CBS veel kennis over is, is het beveiligen van statistische informatie. De verkregen informatie wordt meestal in geaggregeerde vorm gepresenteerd. Toch kan soms gevoelige individuele informatie afgeleid worden. Dan is een vorm van statistische beveiliging noodzakelijk.
Het NRC Handelsblad heeft op dit moment ook een website over statistiek.

Statistieken en het gevaar van simplistische interpretaties

Dr. Ronald Meester
Mathematisch Instituut, Universiteit Utrecht
vrijdag 13.45-14.30 uur

Als we de krant lezen of televisie kijken worden we bedolven onder een stortvloed van informatie. Een groot gedeelte van deze informatie bestaat uit cijfers en statistieken. We worden overspoeld met uitspraken als `Marokkaanse jeugd gewelddadiger dan Turkse', `Helft Nederlanders staat organen af na overlijden' en `CDA verliest drie zetels in opiniepeiling'.

Wat betekenen deze uitspraken? Welke waarde moeten we eraan toekennen?

Aan de hand van een paar voorbeelden zal ik laten zien dat je heel voorzichtig moet zijn met statistieken en de interpretatie ervan; om je leven niet door getallen te laten beheersen is een uitermate kritische houding ten opzichte van statistieken een vereiste.

Een methode om de privacy van respondenten te beschermen: afronden van tabellen

Drs. Ton de Waal
Centraal Bureau voor de Statistiek / Sector Statistische Methoden, Voorburg
vrijdag 16.00-16.45 uur

Het Centraal Bureau voor de Statistiek (CBS) verzamelt zeer veel informatie over de Nederlandse samenleving. Het liefst zou het CBS alle verzamelde informatie in tabelvorm publiceren. Helaas blijkt dat niet te kunnen. Het CBS heeft namelijk de wettelijke en morele plicht ervoor te zorgen dat de privacy van respondenten niet geschonden wordt. Een dergelijke schending kan bijvoorbeeld optreden als in een tabel de omzet van bedrijven wordt gepubliceerd en er aan een bepaalde cel van die tabel slechts één bedrijf bijdraagt. De omzet van dat bedrijf kan dan onmiddellijk door potentiële concurrenten worden afgelezen.

Voordat het CBS tabellen publiceert wordt daarom eerst gekeken of vertrouwelijke gegevens zouden kunnen worden achterhaald op grond van de tabel. Als dat zo is, dan moet de tabel tegen onthulling van vertrouwelijke gegevens beveiligd worden. Er is een aantal technieken om tabellen tegen onthulling te beveiligen, zoals: minder gedetailleerde gegevens publiceren, geen cellen met te vertrouwelijke gegevens publiceren, en celwaarden afronden. Door celwaarden af te ronden kan minder nauwkeurige informatie uit de tabel worden afgeleid, waardoor het gevaar van onthulling van vertrouwelijke gegevens wordt verminderd.

De techniek van het afronden wordt overigens niet alleen gebruikt om tabellen te beveiligen, maar ook om een mooie layout van de tabel te krijgen, en om te voorkomen dat de celwaarden een grotere nauwkeurigheid suggereren dan het CBS eigenlijk waar kan maken.

Het probleem bij het afronden van tabellen is dat we graag willen dat afgeronde celwaarden optellen tot afgeronde randtotalen. Bij de traditionele manier van afronden is dit meestal niet het geval. Daarom wordt er vaak met behulp van een slimmere methode, de zogeheten methode van Cox, afgerond. Deze methode is in 1987 in the Journal of the American Statistical Association gepubliceerd. Het leuke aan deze methode is dat de meeste middelbare scholieren in staat moeten worden geacht om de methode van Cox toe te passen. Tijdens de presentatie zal vooral in worden gegaan op het toepassen van de methode van Cox.

Van Populatie naar Steekproef

Prof.dr. Jelke Bethlehem
Centraal Bureau voor de Statistiek / Sector Statistische Methoden, Voorburg
zaterdag 9.00-10.00 uur

Sinds mensenheugenis wordt er statistische informatie verzameld. Er zijn berichten over statistische overzichten voor Chinese en Egyptische heersers die teruggaan naar duizenden jaren voor Christus. En natuurlijk is er de volkstelling van keizer Augustus die we kennen uit het verhaal over de geboorte van Jezus in Bethlehem. Een ander mooi voorbeeld is het Doomsday Book dat in 1086 in Engeland werd samengesteld in opdracht van de koning Willem de Veroveraar. Ook de Inca's beoefenden de statistiek. Elke stam had zijn eigen statisticus, de Quipucamayoc genoemd.

Vele eeuwen lang werd voor de verzameling van de gegevens gebruik gemaakt van integraal onderzoek. Gebruik van steekproeven werd onverantwoord geacht. Pas zo rond 1895 werd een eerste voorzichtig begin met de toepassing van steekproeven gemaakt.

In zijn honderdjarig bestaan heeft het Centraal Bureau voor de Statistiek (CBS) dit veranderingsproces van integraal onderzoek naar steekproefonderzoek heel bewust meegemaakt. Ook heeft dit instituut een bijdrage geleverd aan de ontwikkeling van de steekproeftheorie. Dit is een theorie die de statistisch-wiskundige onderbouwing levert voor het gebruik van steekproeven.

Naast een verslag van een stukje geschiedschrijving over het gebruik van steekproeven wordt aan de hand van een aantal voorbeelden van steekproefdesigns (aselecte steekproef, gestratificeerde steekproef, steekproef met ongelijke kansen) beschreven hoe door effectief gebruik van aanwezig informatie zeer nauwkeurige uitspraken worden gedaan over een populatie op basis van een steekproef van relatief geringe omvang.

 

Statistiek van extreme waarden

Prof.dr. Laurens de Haan
Econometrisch Instituut, Erasmus Universiteit Rotterdam
zaterdag 10.45-11.30 uur

We zullen uitgaan van twee voorbeelden.

De waterstand bij Vlissingen wordt al honderd jaar lang gemeten bij elk hoog water. Omdat Vlissingen beneden de zeespiegel ligt, wordt het beschermd door een zeedijk. Hoe hoog moet die dijk zijn? De overheid heeft bepaald dat een overstroming eens in de 10.000 jaar acceptabel is. De vraag is: hoe kunnen we extrapoleren van een periode van 100 jaar naar een periode van 10.000 jaar? Vrij vertaald: hoe kunnen we iets zeggen over een ramp die nog nooit voorgekomen is? We zullen schetsen hoe een dergelijk probleem opgelost kan worden (en opgelost is).

Het tweede voorbeeld. We hebben via het CBS de totale levensduur in dagen verkregen van alle mensen die in 1881 in Nederland zijn geboren. Uitgaande van deze gegevens willen we de bekende vraag beantwoorden of mensen onbeperkt oud kunnen worden, met andere woorden of er een leeftijd is zodanig dat niemand ouder dan die leeftijd kan worden. Het zal blijken dat de technieken die nodig zijn om deze vraag te beantwoorden nogal overeenkomen met de technieken die we gebruikten voor het eerste voorbeeld.

Het bijgaande plaatje geeft een grafisch beeld van een extreme-waarden probleem. De puntjes geven de golfhoogte en waterstand weer tijdens bepaalde gevaarlijke stormen. De getrokken lijn is de grens van het faalgebied van de Pettemer Zeedijk, dat wil zeggen een puntje in dat gebied zou een overstroming kunnen veroorzaken bij Petten. Vraag: wat is de kans op een overstroming bij Petten bij de volgende gevaarlijke storm?