Home / Nieuws & Blogs / BigDatamaandag deel 8: Het anonimiseren van databases (1)

BigDatamaandag deel 8: Het anonimiseren van databases (1)

| 25 augustus 2014

Big Data, het begrip waar eindeloos over wordt geschreven en gediscussieerd. Hype of toekomst? Toekomst of realiteit? Wat de speculaties ook zijn, de komende weken zal er een blogserie over Big Data en de juridische impact ervan verschijnen. Want hoewel het combineren van enorme datasets wellicht in een eerste instantie onschuldig lijkt, heeft dit wel degelijk een juridische impact wanneer deze data ook informatie over personen bevat.

In deel 1 van deze blogserie heb ik verteld over wat Big Data nou eigenlijk is en wie er gebruik van maakt. Maar aan het gebruik van Big Data zijn ook grenzen gebonden. Als een database gegevens over personen bevat, is namelijk de Wet bescherming persoonsgegevens van toepassing. Deze wet stelt bepaalde eisen aan het verwerken van persoonsgegevens, namelijk een rechtsgeldige grondslag en een welbepaald, uitdrukkelijk omschreven en gerechtvaardigd doel.

Anonieme gegevens zijn daarentegen geen persoonsgegevens. Indien persoonsgegevens onherleidbaar worden gemaakt, zodat herleiding of spontane herkenning tot een persoon wordt uitgesloten, is de Wet bescherming persoonsgegevens niet van toepassing. Maar hoe zorg je ervoor dat een database niet-herleidbaar wordt gemaakt als deze database persoonsgegevens bevat? In deze blog behandel ik 2 van de 5 mogelijkheden en beargumenteer ik waarom het wel of niet mogelijk is databases op deze wijze te anonimiseren.

1) Een eerste mogelijkheid om een database te anonimiseren, is door gegevens met elkaar te verwisselen.

Dit kan op twee manieren. De eerste manier is het zogenaamde set-shuffling van gegevens. Bij deze methode worden gegevens verwisseld, maar wanneer een gegeven vaker voorkomt, zoals bijvoorbeeld een achternaam of straatnaam, dan wordt deze altijd voor eenzelfde gegeven verwisseld. Dit resulteert er in dat wanneer in een database een gezin is opgenomen, dit hele gezin eenzelfde ander adres krijgt. Een tweede methode is unique-shuffling. Alle gegevens die een database bevat, worden willekeurig met elkaar verwisseld. Zo zouden voor- en achternaam met elkaar verwisseld kunnen worden, maar worden bijvoorbeeld ook adresgegevens aan een ander persoon gekoppeld.

Beide methodes zijn niet waterdicht, aangezien spontane herkenning bij specifieke gegevens hierdoor niet uitgesloten wordt. Denk bijvoorbeeld aan een uitzonderlijke achternaam, een telefoonnummer en een e-mailadres. Om deze persoonsgegevens te herleiden tot een individu, is in principe niet een ander gegeven uit die specifieke database nodig. Daarnaast kunnen indirect herleidbare persoonsgegevens in combinatie met andere gegevens uit een externe database alsnog herleiden tot een individu.

2) Een tweede mogelijkheid is om de data te maskeren.

Bestaande gegevens kunnen deels onleesbaar worden gemaakt door deze te vervangen voor een zogeheten standaardwaarde. Zo kan bijvoorbeeld een x gebruikt worden, om een gedeelte van een gegeven te maskeren. Een e-mailadres wordt na maskeren bijvoorbeeld P.de.Bakker@xxxxx.xxx. Het probleem bij het maskeren van gegevens is dat nog steeds spontane herkenning mogelijk blijft, zoals bij het voorbeeld van het e-mailadres waarbij een naam is opgenomen. Bovendien zijn de gegevens in de database nog aan elkaar gekoppeld. Het kan dus zijn dat na het maskeren van gegevens, NAW-gegevens nog steeds bij elkaar opgeslagen staan. Ook in dit geval zal maskeren onvoldoende de gegevens anonimiseren om herleidbaarheid uit te sluiten. Maskeren leidt tot matig herleidbare gegevens, maar in combinatie met veel andere data, wat bij Big Data het geval is, zal herleiding altijd mogelijk zijn.

Maskeren kan ook plaatsvinden door een standaardwaarde, weer bijvoorbeeld een x, te gebruiken om het gehele gegeven te maskeren. In dit geval zal het e-mailadres X.xx.Xxxxxx@xxxxx.xxx worden. Dit daarentegen, zou wél een effectieve manier zijn om data te anonimiseren. Het nadeel aan het volledig maskeren van gegevens is dat de data ook niet meer voor Big Data analyses gebruikt kan worden. Er is tenslotte behalve een standaardwaarde niks af te lezen aan de data. De database zal hierdoor onbruikbaar geworden.

Met de komst van de geavanceerde data mining tools is het verre van eenvoudig databases te anonimiseren. Er zijn nog 3 andere mogelijkheden te bespreken om databases te anonimiseren. Lees volgende week of deze 3 mogelijkheden meer kans van slagen hebben!