1. Koncept maskiranja podatkov
Maskiranje podatkov je znano tudi kot maskiranje podatkov. Gre za tehnično metodo za pretvorbo, spreminjanje ali prekrivanje občutljivih podatkov, kot so številka mobilnega telefona, številka bančne kartice in drugi podatki, kadar imamo določena pravila in politike maskiranja. Ta tehnika se uporablja predvsem za preprečevanje neposredne uporabe občutljivih podatkov v nezanesljivih okoljih.
Načelo maskiranja podatkov: Maskiranje podatkov mora ohraniti prvotne značilnosti podatkov, poslovna pravila in relevantnost podatkov, da se zagotovi, da maskiranje ne bo vplivalo na nadaljnji razvoj, testiranje in analizo podatkov. Zagotovite doslednost in veljavnost podatkov pred in po maskiranju.
2. Klasifikacija maskiranja podatkov
Maskiranje podatkov lahko razdelimo na statično maskiranje podatkov (SDM) in dinamično maskiranje podatkov (DDM).
Statično maskiranje podatkov (SDM)Maskiranje statičnih podatkov zahteva vzpostavitev nove baze podatkov neprodukcijskega okolja za izolacijo od produkcijskega okolja. Občutljivi podatki se izvlečejo iz produkcijske baze podatkov in nato shranijo v neprodukcijsko bazo podatkov. Na ta način so desenzibilizirani podatki izolirani od produkcijskega okolja, kar ustreza poslovnim potrebam in zagotavlja varnost produkcijskih podatkov.
Dinamično maskiranje podatkov (DDM)Na splošno se uporablja v produkcijskem okolju za desenzibilizacijo občutljivih podatkov v realnem času. Včasih so za branje istih občutljivih podatkov v različnih situacijah potrebne različne ravni maskiranja. Na primer, različne vloge in dovoljenja lahko izvajajo različne sheme maskiranja.
Aplikacija za poročanje podatkov in maskiranje podatkovnih izdelkov
Takšni scenariji vključujejo predvsem interne izdelke za spremljanje podatkov ali oglasne deske, zunanje storitvene podatkovne izdelke in poročila, ki temeljijo na analizi podatkov, kot so poslovna poročila in pregledi projektov.
3. Rešitev za maskiranje podatkov
Pogoste sheme maskiranja podatkov vključujejo: razveljavitev, naključno vrednost, zamenjavo podatkov, simetrično šifriranje, povprečno vrednost, odmik in zaokroževanje itd.
RazveljavitevRazveljavitev se nanaša na šifriranje, skrajšanje ali skrivanje občutljivih podatkov. Ta shema običajno nadomesti dejanske podatke s posebnimi simboli (kot je *). Postopek je preprost, vendar uporabniki ne morejo poznati oblike izvirnih podatkov, kar lahko vpliva na nadaljnje aplikacije podatkov.
Naključna vrednostNaključna vrednost se nanaša na naključno zamenjavo občutljivih podatkov (številke nadomeščajo številke, črke nadomeščajo črke in znaki nadomeščajo znake). Ta metoda maskiranja bo do določene mere zagotovila format občutljivih podatkov in olajšala nadaljnjo uporabo podatkov. Za nekatere pomembne besede, kot so imena ljudi in krajev, bodo morda potrebni slovarji maskiranja.
Zamenjava podatkovZamenjava podatkov je podobna maskiranju ničelnih in naključnih vrednosti, le da se namesto posebnih znakov ali naključnih vrednosti maskirni podatki nadomestijo z določeno vrednostjo.
Simetrično šifriranjeSimetrično šifriranje je posebna metoda reverzibilnega maskiranja. Šifrira občutljive podatke s šifrirnimi ključi in algoritmi. Format šifriranega besedila je skladen z izvirnimi podatki v logičnih pravilih.
PovprečjeShema povprečenja se pogosto uporablja v statističnih scenarijih. Za numerične podatke najprej izračunamo njihovo povprečje, nato pa naključno porazdelimo desenzibilizirane vrednosti okoli povprečja, s čimer ohranimo vsoto podatkov konstantno.
Odmik in zaokroževanjeTa metoda spreminja digitalne podatke z naključnim premikom. Zaokroževanje z odmikom zagotavlja približno avtentičnost obsega, hkrati pa ohranja varnost podatkov, ki so bližje dejanskim podatkom kot prejšnje sheme in imajo velik pomen v scenariju analize velikih količin podatkov.
Priporočeni modelML-NPB-5660"za maskiranje podatkov"
4. Pogosto uporabljene tehnike maskiranja podatkov
(1). Statistične tehnike
Vzorčenje in združevanje podatkov
- Vzorčenje podatkov: Analiza in vrednotenje izvirnega nabora podatkov z izbiro reprezentativne podmnožice nabora podatkov je pomembna metoda za izboljšanje učinkovitosti tehnik deidentifikacije.
- Združevanje podatkov: Kot zbirka statističnih tehnik (kot so seštevanje, štetje, povprečenje, maksimum in minimum), uporabljenih za atribute v mikropodatkih, je rezultat reprezentativen za vse zapise v izvirnem naboru podatkov.
(2). Kriptografija
Kriptografija je pogosta metoda za desenzibilizacijo ali povečanje učinkovitosti desenzibilizacije. Različne vrste šifrirnih algoritmov lahko dosežejo različne učinke desenzibilizacije.
- Deterministično šifriranje: Nenaključno simetrično šifriranje. Običajno obdeluje podatke o identiteti in lahko po potrebi dešifrira ter obnovi šifrirano besedilo v prvotno identiteto, vendar mora biti ključ ustrezno zaščiten.
- Nepovratno šifriranje: Za obdelavo podatkov se uporablja zgoščevalna funkcija, ki se običajno uporablja za identifikacijske podatke. Ni je mogoče neposredno dešifrirati in je treba ohraniti razmerje preslikave. Poleg tega lahko zaradi značilnosti zgoščevalne funkcije pride do kolizije podatkov.
- Homomorfno šifriranje: Uporablja se homomorfni algoritem šifriranega besedila. Njegova značilnost je, da je rezultat operacije s šifriranim besedilom enak rezultatu operacije z odprtim besedilom po dešifriranju. Zato se pogosto uporablja za obdelavo numeričnih polj, vendar se zaradi zmogljivosti ne uporablja pogosto.
(3). Sistemska tehnologija
Tehnologija zatiranja izbriše ali zaščiti podatkovne elemente, ki ne izpolnjujejo zahtev glede varstva zasebnosti, vendar jih ne objavi.
- Maskiranje: nanaša se na najpogostejšo metodo desenzibilizacije za maskiranje vrednosti atributa, kot je številka nasprotnika, osebna izkaznica označena z zvezdico ali naslov skrajšan.
- Lokalno zatiranje: nanaša se na postopek brisanja določenih vrednosti atributov (stolpcev) in odstranjevanja nebistvenih podatkovnih polj;
- Izločanje zapisov: nanaša se na postopek brisanja določenih zapisov (vrstic) in brisanja nebistvenih podatkovnih zapisov.
(4). Tehnologija psevdonimov
Pseudomaning je tehnika deidentifikacije, ki uporablja psevdonim namesto neposrednega identifikatorja (ali drugega občutljivega identifikatorja). Tehnike psevdonimov namesto neposrednih ali občutljivih identifikatorjev ustvarijo edinstvene identifikatorje za vsakega posameznega subjekta informacij.
- Lahko neodvisno generira naključne vrednosti, ki ustrezajo izvirnemu ID-ju, shrani tabelo preslikav in strogo nadzoruje dostop do tabele preslikav.
- Za ustvarjanje psevdonimov lahko uporabite tudi šifriranje, vendar morate pravilno hraniti ključ za dešifriranje;
Ta tehnologija se pogosto uporablja v primeru velikega števila neodvisnih uporabnikov podatkov, kot je na primer OpenID v scenariju odprte platforme, kjer različni razvijalci pridobijo različne OpenID-je za istega uporabnika.
(5). Tehnike posploševanja
Tehnika generalizacije se nanaša na tehniko deidentifikacije, ki zmanjša granularnost izbranih atributov v naboru podatkov in zagotavlja bolj splošen in abstrakten opis podatkov. Tehnologija generalizacije je enostavna za izvedbo in lahko zaščiti avtentičnost podatkov na ravni zapisov. Pogosto se uporablja v podatkovnih izdelkih ali podatkovnih poročilih.
- Zaokroževanje: vključuje izbiro osnove zaokroževanja za izbrani atribut, kot je forenzika navzgor ali navzdol, kar daje rezultate 100, 500, 1K in 10K
- Tehnike zgornjega in spodnjega kodiranja: Vrednosti nad (ali pod) pragom nadomestite s pragom, ki predstavlja zgornjo (ali spodnjo) raven, kar da rezultat "nad X" ali "pod X".
(6). Tehnike randomizacije
Kot neke vrste tehnika deidentifikacije se tehnologija randomizacije nanaša na spreminjanje vrednosti atributa z randomizacijo, tako da se vrednost po randomizaciji razlikuje od prvotne dejanske vrednosti. Ta postopek zmanjšuje zmožnost napadalca, da izpelje vrednost atributa iz drugih vrednosti atributov v istem podatkovnem zapisu, vendar vpliva na verodostojnost nastalih podatkov, kar je običajno pri testnih produkcijskih podatkih.
Čas objave: 27. september 2022