GDPR i anonimizacija podataka

Matija Maletić, konzultant u Data Managment odjelu osvrnuo se na samu srž GDPR uredbe- važnost zaštite osobnih podataka, te nam pojasnio što su zapravo sve osobni podaci i kako implementirati tehnička rješenja zaštite osobnih podataka.

Kako se pravilno anonimiziraju podaci prema GDPR uredbi? Koja je razlika između anonimiziranih podataka i pseudonimiziranih podataka? Koji alat se koristi za anonimizaciju? Kako izgleda proces implementacije rješenja? Samo su neka od pitanja na koja je odgovorio Matija.

Kao što je svima poznato, 25.5.2018 počela je primjena Opće uredbe o zaštiti podataka (engl. General Data Protection Regulation, GDPR). Kako je zaštita osobnih podataka srž Uredbe, važno je znati što su zapravo sve osobni podaci i kako implementirati tehničko rješenje zaštite podataka.

SAD u osobne podatke (engl. Personally Identifiable Information, PII) ubraja podatke poput: imena, adresa, datuma rođenja, podataka o kreditnim karticama, email adresa, telefonskih brojeva i sl. Europska Unija uz navedene, dodatno ubraja i podatke poput objava na društvenim mrežama, IP adresa, fotografija, GPS lokacija i životnih navika, tj. sve informacije koje se odnose na pojedinca čiji se identitet može utvrditi pristupom podacima. Također, različite informacije koje zajedno prikupljene mogu rezultirati utvrđivanjem identiteta određene osobe, te čine osobne podatke, na što je potrebno obratiti pažnju u procesu implementiranja rješenja za obradu podataka prema Uredbi.

Prema Uredbi, pravilno anonimizirani podaci se ne smatraju identificirajućom informacijom i više nisu predmet Uredbe. Anonimizirani podaci su osobni podaci koji su određenim tehnikama obrađeni do mjere da onemogućuju reidentifikaciju, čak i od strane voditelje obrade (engl. data controller). U trenu kada su podaci anonimizirani, voditelji obrade i izvršitelji obrade (engl. data processor) imaju pravo koristiti, obrađivati i objavljivati takve podatke bez posebnih privola vlasnika podataka, te ih čuvati bez ograničenja vremenskog perioda pohrane.

Anonimizirane podatke valja razlikovati od pseudonimiziranih podataka. Proces pseudonimizacije ne uklanja sve identifikatore iz podataka već smanjuje načine povezivanja s fizičkom osobom pomoću nekoliko tehnika, npr. enkripcije i zamjene podatka pseudonimom. Takvi podaci trebaju dodatne informacije za reidentifikaciju, koje se obično čuvaju na odvojenim sustavima pohrane. S obzirom na to da je proces pseudoanonimizacije reverzibilan, takvi podaci se i dalje smatraju osobnim podacima i regulirani su Uredbom.

Prilikom odabira podataka koji će se anonimizirati ili pseudonimizirati, važno je obratiti pažnju na više mogućih scenarija:

  • Povezivanje podataka (engl. data linking) – podrazumijeva povezivanje više informacija koje zasebno ne mogu identificirati osobu ali mogu u skupu. Istraživanje je pokazalo kako je pomoću peteroznamenkastog poštanskog broja, spola i datuma rođenja moguće jedinstveno identificirati čak 87% stanovnika SAD, a pomoću informacija o državi, spolu i datumu rođenja 18% stanovništva
  • Izdvajanje (engl. single out) – identifikatori mogu ili ne moraju iskazati pojedinu osobu ovisno o kontekstu, posebice u kombinaciji s javno dostupnim podacima. Na primjer, ako znamo godinu rođenja osobe, vjerojatno će se unutar podatka o kućanstvu moći jedinstveno identificirati osoba, dok s druge strane, na popisu studenata fakulteta, godina rođenja neće biti dovoljan podatak za identifikaciju pojedinca
  • Indirektno identificiranje – zamislimo da postoji osoba imena Matija, koji svaki petak u 18.00 sati pomoću svog imena, telefonskog broja i emaila rezervira teniski termin na istom teniskom terenu. Ako anonimiziramo njegove osobne podatke (ime, tel. broj i email), on svojim životnim navikama dozvoljava da ga indirektno reidentificiramo
  • Zaključivanje (engl. inference) – ponekad je moguće zaključiti vezu između informacija u nekom skupu podataka. Uzmimo za primjer skup podataka s informacijama o broju godina radnog iskustva zaposlenika i brojem dana dodijeljenog godišnjeg odmora. Znajući da radno iskustvo povećava broj dana godišnjeg odmora, postoji mogućnost identifikacije pojedinih zaposlenika.

Razina anonimizacije/pseudonimizacije također ovisi o okolini u kojoj će se podaci koristiti. Ako se podaci (pseudo)anonimiziraju isključivo za potrebe unutar organizacije, moguće je implementirati manji stupanj anonimizacije. Razlog tome je što organizacije propisuju tko ima pristup kojim podacima i kada, te imaju dodatne razine zaštite, pa ukupna razina čuvanja povjerljivih podatka odgovara zaštiti propisanoj Uredbom.

Test Data Management

Alat koji se može koristiti za anonimizaciju je Informatica Test Data Management (TDM). On se temelji na perzistentnom, nereverzibilnom maskiranju podataka tako što kreira skup anonimiziranih podataka i zamjenjuje originalne podatke anonimiziranima, ili osjetljive podatke anonimizira prilikom kopiranja na testno ili vanjsko okruženje. Cilj je stvoriti realistične podatke koji zadržavaju format postojećih kako bi se omogućila obrada i testiranje nad istima.

TDM se primarno temelji na ažuriranju postojećeg skupa podataka jer zadržavanje originalnih podataka ne osigurava zaštitu osobnih informacija. Ako je anonimizacija neophodna, potrebno je izbrisati originalan skup podataka kada više nije potreban kako se anonimizirani podaci ne bi mogli identificirati pomoću originalnih podataka. Prije brisanja originalnog skupa podataka, anonimizirani podaci se i dalje trebaju tretirati kao osobni podaci.

Slika 1. Proces maskiranja u TDM-u

Proces implementiranja rješenja kroz TDM:

  • Definicija osjetljivih podataka – temeljem poznavanja sustava i propisa iz Uredbe, potrebno je odrediti sustave koji bi mogli sadržavati osjetljive podatke, i definirati koja vrsta osobnih podataka se nalazi u kojim sustavima
  • Kreiranje podatkovnih domena – podatkovna domena predstavlja funkcionalno značenje podataka u samoj strukturi pohrane (npr. atributi tablica). Podatkovne domene grupiraju originalne podatke kako bi se kasnije mogli anonimizirati istom tehnikom. Podatkovna domena kreira se regularnim izrazom kojim opisujemo podatkovni format u toj koloni ili se opisuje samo ime kolone. Ovime definiramo na koji će se način pronaći svi osjetljivi podaci
  • Kreiranje pravila maskiranja – kreiranje logike i pravila za maskiranje podataka. Tehnike su opisane u nastavku
  • Otkrivanje podatkovnih domena – proces otkrivanja koje tablice i kolone spadaju u kategoriju osobnih podataka koji su definirani kroz podatkovne domene iz prethodnog koraka te koje su njihove veze s drugim podacima u sustavu
  • Stvaranje podskupa podatka – moguće je kreirati podskup produkcijskih podataka ako postoji potreba za izdvajanjem određenog dijela produkcijskih podataka u ne-produkcijsko okruženje. Na primjer, izdvajanje financijskih podataka samo za 2018. godinu
  • Maskiranje – podatkovne domene se povezuju s utvrđenim pravilima anonimizacije. Time se osjetljivi podaci u sustavu (npr. kolone u produkcijskim tablicama) povezuju s konkretnim tehnikama maskiranja. TDM potom generira Informatica PowerCenter objekte u kojima se obradom anonimiziraju podaci, po pravilima definiranima u prethodnim koracima.

Slika 2. Grupiranje podataka u domenu

Tehnike maskiranja (široka primjena područja podataka):

  • Key masking – generira ponovljiv rezultat prema originalnom podatku, maskirnom pravilu i tzv. seed Moguće je odabrati koji tip znakova se supstituira (alfanumerički, brojevi, ASCII znakovi, simboli itd.), raspon znakova s kojima će se zamijeniti i filtriranje znakova koji će se maskirati
  • Randomization – generira neponovljiv rezultat prema originalnom podatku i maskirnom pravilu. Moguće je definirati raspon vrijednosti, postotak odstupanja od originalne vrijednosti, tip znakova koji se supstituiraju
  • Substitution – predstavlja zamjenu originalnog podatka sa sličnom, no nepovezanom vrijednosti iz rječnika podataka koji može biti pohranjen u bazi ili u tekstualnom obliku. Može biti ponovljive vrijednosti ili jedinstven, no u potonjem slučaju valja paziti da rječnik sadrži više jedinstvenih vrijednosti od skupa podataka koji se maskira
  • Nullification – zamjenjuje originalan podatak s NULL vrijednosti
  • Expression masking– primjenjuje izraze i funkcije za modifikaciju originalnog podatka
  • Advanced – kombinacija više tehnika maskiranja kojom možemo kombinirati višestruke kolone kao ulaznu vrijednost, definirati varijable maskiranja i primjenjivati funkcije nad ulaznim i izlaznim vrijednostima.

Neke od specijaliziranih tehnika maskiranja:

  • Credit card – generira validne brojeve kreditnih kartica, dok zadržava format izdavača kartice (npr. Visa, MasterCard…)
  • Phone number – generira slučajnu vrijednost telefonskog broja, zadržavajući originalan format
  • Email address – generira realistične email adrese. Obično za tvorbu koristi maskirane vrijednosti kolona imena i prezimena. Može koristiti konstantnu email domenu ili više njih iz rječnika domena
  • URL address – generira slučajne URL identifikatore s istim protokolom (HTTP, FTP) kao original. Ne podržava ponovljivost
  • IP address – generira slučajnu IP adresu u rasponu dozvoljenih IP adresa. Ne dozvoljava ponovljivost.

TDM u određenim tehnikama maskiranja omogućava opciju ponovljivosti (engl. repeatability) koristeći seed vrijednost. To znači da se za originalan podatak može dobiti ista maskirana vrijednost koristeći isti seed više puta. Ponovljivost ne daje maksimalnu razinu sigurnosti, no ako ga poslovanje zahtjeva, preporučuje se zamjena seed vrijednosti nakon svakog osvježavanja podataka u sustavu. Tehnike poput zamjene originalne vrijednosti s NULL vrijednostima daju veću razinu sigurnosti, no manju poslovnu vrijednost. S druge strane, tehnike poput slučajnog maskiranja daju manju sigurnost ali veću poslovnu vrijednost.

Naglasak cijelog procesa anonimizacije je na pravilnom odabiru tehnike maskiranja i pokrivanju svih osjetljivih podataka u skupu da se ispune uvjeti anonimiziranog skupa podataka. Prilikom toga valja uzeti u obzir sve već navedene scenarije rizika i poslovnih potreba. Također valja uzeti u obzir performanse provođenja cijelog procesa. Vrijeme potrebno za anonimizaciju ovisit će o broju sustava s osjetljivim podacima, broju zahvaćenih tablica i kolona u njima, broju zapisa u tim tablicama te odabranoj tehnici maskiranja. Samim time, valja planirati i vrijeme procesiranja tih podataka prije isporuke krajnjim korisnicima.

Zaključak

Anonimizirani podaci se mogu dijeliti i čuvati. U implementacijskoj procjeni rizika dobro je uzeti u obzir javno dostupne podatke koji bi se mogli povezati s anonimiziranim podacima i tako identificirati pojedinca. Poslovanje mora odlučiti razinu implementacije, tj. odnos sigurnosti i poslovne vrijednosti podataka, no dužnost je organizacija limitirati sve moguće rizike identifikacije podataka, što osim implementacije podrazumijeva trenutni monitoring i ponovnu procjenu rizika u budućnosti.

Posljednje Blog objave

At Poslovna inteligencija, we are data experts. Our dedication to transforming business data utilization has led us to a partnership with Tableau, the global frontrunner in data visualization. This partnership is more than just a collaboration; it's our commitment to arm companies with the tools they need to unlock the full potential of their data.
In the age of digitalization, data is like the new oil. But extracting value from data over the long-term requires a strategy – and this post will help you establish one. We’ll cover why data strategy is important, how data strategy supports business strategy, and the 9 essential elements your data strategy should contain to be successful. Let’s dive in.
Environmental, Social, and Governance (ESG) reporting is not just a business trend but a regulatory necessity. It has become a crucial framework for assessing a company's impact on society and the environment, as well as its governance practices.
Financial consolidation is challenging for many reasons, but the biggest one for large enterprises is managing the complexity of the financial data itself. We will show you how IBM Cognos Controller can simplify the process and what are the best practices to maximize efficiency in financial consolidation.
In today’s digital age, data has become just as important as the products themselves. But for it to become valuable, data needs to be governed. In this article, you will learn how to implement a data governance strategy, as well as how data maturity assessments can help your organization get from simple data management to real-time data governance.
Financial consolidation is an essential process for an organization, especially if it has multiple entities. As a finance manager or executive, it empowers you with a complete understanding of your organization's financial well-being, enabling you to make informed decisions about where to allocate resources and how to plan strategically.
In today's competitive business landscape, maximizing profitability and unlocking your organization's true potential are critical to sustained success. PI Profitability Solution, powered by the IBM Planning Analytics with Watson platform, helps you achieve precisely that.
Data governance is the most important, yet most overlooked, part of creating an enterprise-level analytical system. It’s the key to making data-driven business decisions, but many enterprises don’t do it right – or not at all.
Scroll to Top

Budite u toku s novostima

Budite u toku s novostima

Prijavite se na naš newsletter i budite uvijek u toku s novostima i tehnologijama iz svijeta Poslovne inteligencije.


Business & Data Analysis
Planning, OLAP & Reporting & Financial consolidation
Data Integration, Data Migration & Data Engineering
Data Governance, Data Quality & Master Data Management
Data Science
DWH models
XBRL point
ConQ Content Analytics
SynQ

I acknowledge that the personal data I submit through this contact form will be used by Poslovna inteligencija d.o.o. to contact me and provide information related to my inquiry/application. I consent to Poslovna inteligencija using my submitted personal data to send newsletters containing information about news, products, and services of Poslovna inteligencija. I also acknowledge that I can unsubscribe from receiving newsletters at any time by clicking the 'Unsubscribe' link in each newsletter. Comprehensive information related to my rights and the use of my personal data can be found in Poslovna inteligencija's Privacy Policy.:
Yes No *

Please don't insert text in the box below!

The fields marked with * are required