Home / Nieuws & Blogs / BigDatamaandag deel 9: Het anonimiseren van databases (2)

BigDatamaandag deel 9: Het anonimiseren van databases (2)

| 1 september 2014

Big Data, het begrip waar eindeloos over wordt geschreven en gediscussieerd. Hype of toekomst? Toekomst of realiteit? Wat de speculaties ook zijn, de komende weken zal er een blogserie over Big Data en de juridische impact ervan verschijnen. Want hoewel het combineren van enorme datasets wellicht in een eerste instantie onschuldig lijkt, heeft dit wel degelijk een juridische impact wanneer deze data ook informatie over personen bevat.

In deel 1 van deze blogserie heb ik verteld over wat Big Data nou eigenlijk is en wie er gebruik van maakt. Maar aan het gebruik van Big Data zijn ook grenzen gebonden. Als een database gegevens over personen bevat, is namelijk de Wet bescherming persoonsgegevens van toepassing. Deze wet stelt bepaalde eisen aan het verwerken van persoonsgegevens, namelijk een rechtsgeldige grondslag en een welbepaald, uitdrukkelijk omschreven en gerechtvaardigd doel.

Anonieme gegevens zijn daarentegen geen persoonsgegevens. Dus indien persoonsgegevens onherleidbaar worden gemaakt, zodat herleiding of spontane herkenning naar een persoon wordt uitgesloten, is de Wet bescherming persoonsgegevens niet van toepassing. Maar hoe zorg je ervoor dat een database niet-herleidbaar wordt gemaakt als deze database persoonsgegevens bevat? Vorige week behandelde ik al 2 van de 5 mogelijkheden om databases te anonimiseren, deze week behandel ik 3 andere mogelijkheden.

3) Een derde mogelijkheid voor het anonimiseren van een database is het retoucheren van gegevens. Hierbij kunnen bepaalde gegevens minimaal aangepast worden zodat ze niet meer overeenkomen met de oorspronkelijke gegevens. Een datum kan bijvoorbeeld worden aangepast naar de eerste dag van de maand en cijfercombinaties kunnen verhoogd worden met bijvoorbeeld een percentage van 10 procent.

Het probleem bij deze wijze van anonimiseren is, indien dezelfde retoucheerwijze bij alle data wordt toegepast, dat deze in grote mate overeenkomt met de oorspronkelijke data en hierdoor herleiding nog steeds kan plaatsvinden. Als één individu geïdentificeerd kan worden, is het tevens mogelijk te achterhalen op welke wijze de andere gegevens zijn geretoucheerd. Hierdoor is vervolgens de retouchering terug te draaien. Nog een veel belangrijker nadeel aan deze wijze van anonimiseren, is dat het enkel toepasbaar is op data die uit cijfers bestaat. Woorden en letters kunnen niet op deze wijze geretoucheerd worden. Dit heeft als gevolg dat alle andere data nog uitstekend leesbaar is, en dus ook herleidbaar. Retoucheren zal daarom geen oplossing zijn voor Big Data.

4) Een vierde mogelijkheid voor het anonimiseren van databases is het onleesbaar maken of filteren van persoonsgegevens. Bij het opslaan van de data worden persoonsgegevens direct geanonimiseerd waardoor de gegevens niet meer leesbaar zijn. Er vindt dus geen situatie plaats waarin persoonsgegevens leesbaar of aanwezig zijn geweest.

Deze methode zal hoogstwaarschijnlijk het meest effectief zijn. Daarentegen is het wel de vraag hoe bruikbaar de database nog is na het filteren van alle persoonsgegevens. Bovendien wordt wegens hergebruik bij Big Data de data in de eerste instantie voor een ander doel opgeslagen, bijvoorbeeld voor het verwerken van online bestellingen. Dit is dan niet meer mogelijk omdat de persoonsgegevens niet leesbaar zijn. Zo zullen NAW-gegevens direct gefilterd worden, en zonder adres kan een bestelling niet verzonden worden. Deze wijze van anonimiseren is dus slechts mogelijk wanneer het verwerken van persoonsgegevens niet noodzakelijk is voor de dienst. Dit zou wel de beste poging zijn om databases niet onder de reikwijdte van de wet te laten vallen.

5) Een laatste mogelijkheid is om alle databases te coderen en de sleutel van deze codering te geven aan een derde welke een geheimhoudingsplicht opgelegd wordt. De vraag is wel in hoeverre gegevens hierdoor voldoende geanonimiseerd zijn. In principe vallen deze gegevens nog steeds onder de reikwijdte van de wet indien de codering teruggedraaid wordt door middel van de sleutel.Het is daarom de vraag welke codering is toegepast, en of deze met de sleutel eenvoudig terug te draaien is.

Bovendien is deze methode van anonimiseren geen zinvolle oplossing voor Big Data. Wanneer enkel gecodeerde data beschikbaar is kan deze data niet gebruikt worden voor het oorspronkelijke doel, laat staan voor Big Data. De verantwoordelijke van de gegevens zou hierdoor afhankelijk worden van een derde bij de verwerking van persoonsgegevens.

Zoals uit bovenstaande mogelijkheden blijkt is het verre van eenvoudig een database effectief anonimiseren. Volgende week zal ik de huidige knelpunten van de Wet bescherming persoonsgegevens behandelen met de komst van Big Data.