Ich erzeuge Protokolldatensätze über Benutzeraktionen. Aus Datenschutzgründen müssen diese nach N Tagen anonymisiert werden. Ich muss jedoch auch Berichte über diese anonymisierten Daten erstellen.Wie anonymisiert man neue Protokolldatensätze, ohne die Beziehungen zwischen alten und neuen Daten zu unterbrechen?
Ich möchte alle Aktionen von realen Benutzer A unter gefälschten Benutzer X in den anonymisierten Protokollen aufgeführt werden - Datensätze von einem Benutzer müssen immer noch Datensätze von einem (falschen) Benutzer in den Protokollen bleiben. Dies bedeutet natürlich, dass ich eine Zuordnung zwischen echten und gefälschten Benutzern haben muss, die ich bei der Anonymisierung neuer Datensätze verwende. Damit wird die Anonymisierung natürlich komplett zunichte gemacht - bei einer Zuordnung können die ursprünglichen Benutzerdaten wiederhergestellt werden.
Beispiel:
Benutzer Frank Müller gekauft 3 Dosen Suppe.
Drei Tage später bat Benutzer Frank Müller um Erstattung für 3 Dosen Suppe.
Wenn ich den zweiten Protokolleintrag anonymisiere, wurde der erste bereits anonymisiert. Ich möchte immer noch, dass beide Protokolldatensätze auf denselben Benutzer verweisen. Nun, das scheint mir in der Praxis fast unmöglich zu sein, deshalb möchte ich eine Methode der Datenaufteilung verwenden, die mir hoffentlich erlaubt, so viel Integrität wie möglich in den Daten zu halten. Vielleicht die Logs als Data Warehouse nutzen - alles in Fakten aufteilen und einfach akzeptieren, dass einige Dimensionen nicht analysiert werden können?
Sind Sie schon einmal auf ein solches Szenario gestoßen? Was sind meine Möglichkeiten hier? Ich muss natürlich einen Kompromiss eingehen - was hat sich für Sie als effektiv erwiesen? Wie kann man solche Daten optimal nutzen?
Große Antwort für die Abdeckung von pseudonymen, Einweg-Hashing, erneute Identifizierung Risiken und Schlüsselverwaltung. – npdoty