it-swarm.com.de

Welche Tools gibt es für die Datenmaskierung? (MySQL, Linux)

Ich suche (idealerweise kostenlose Open-Source-) Datenmaskierungswerkzeuge. Gibt es solche?

Hinweis: Diese verwandte Frage befasst sich mit Tools zum Generieren von Testdaten. In dieser Frage geht es mir jedoch mehr darum, mit realen Daten zu beginnen und diese für die Verwendung im Test zu maskieren, ohne spezielle Beziehungen zu verlieren, die sie für Testzwecke interessant machen. Generierte Daten sind für einige Testzwecke in Ordnung, aber reale Daten werfen Probleme auf, an die Sie nie gedacht haben. Tool zum Generieren großer Datensätze von Testdaten

14
testerab

Ich wäre sehr überrascht, wenn es ein generisches Tool dafür gäbe - wie würde es "wissen", was sensible Daten sind und was nicht? Zum Beispiel müsste es alle Ihre Daten untersuchen und alle möglichen Formate von Kreditkartennummer, Telefonnummer, Postleitzahl, E-Mail-Adresse und anderen Daten erkennen, die als vertraulich gelten. Es müsste auch klug über Ihr Schema sein - z. Sollte es alle Kunden-E-Mail-Adressen in "[email protected]" umschreiben - oder geht ein Teil Ihrer Datenbank, Anwendungen oder anderen Tools davon aus, dass die E-Mail-Adresse eines Kunden (oder die SSN oder was auch immer) eindeutig ist? Oder haben Sie einen Teil der Anwendung, der Kreditkartennummern prüft und der kaputt geht, wenn Sie alle auf 0000 0000 0000 0000 zurücksetzen? Oder geht Ihr Telefoniesystem davon aus, dass die Vorwahl eines Kunden dem Land in seiner Adresse entspricht?

Grundsätzlich ist das Konfigurieren eines Tools dafür genauso viel oder mehr Arbeit als nur das Schreiben eines eigenen Skripts unter Verwendung Ihrer Kenntnisse der Anwendung. Auf meiner Website haben wir einfach festgelegt, dass jeder, der eine Spalte mit solchen Daten hinzufügt, das Skript aktualisiert, um es gleichzeitig zu anonymisieren, nach einer ersten Prüfung, um alle diese Spalten zu finden und Version 1 zu schreiben.

9
Gaius

Ich habe noch nie einen solchen Gegenstand gesehen, aber nachdem ich in meiner Zeit mit ein paar sensiblen Datensätzen gearbeitet habe, muss vor allem die Identität von Personen oder die persönliche Identifizierung von Informationen verschlüsselt werden. Dieses sollte erscheint nur an wenigen Stellen in der Datenbank.

Ihre Maskierungsoperation sollte die statistischen Eigenschaften und Beziehungen der Daten beibehalten und muss wahrscheinlich die tatsächlichen Referenzcodes (oder zumindest einen kontrollierten Übersetzungsmechanismus) beibehalten, damit Sie sie mit den tatsächlichen Daten abgleichen können.

Dies kann erreicht werden, indem eine eindeutige Liste der Namen in den Feldern abgerufen und durch eine VornameXXXX ersetzt wird (wobei XXXX eine Sequenznummer ist, eine für jeden eindeutigen Wert). Kreditkartennummern und ähnliche Informationen, die für Identitätsdiebstahl verwendet werden könnten, sind in einer Entwicklungsumgebung wahrscheinlich ein No-No. Sie benötigen jedoch nur echte, wenn Sie Zahlungsverarbeitungssysteme testen. In der Regel erhalten Sie vom Anbieter spezielle Codes für Dummy-Konten.

Es ist nicht besonders schwierig, solche Anonymisierungsverfahren zu schreiben, aber Sie müssen genau vereinbaren, was mit dem Unternehmen anonymisiert werden muss. Falls erforderlich, gehen Sie die Datenbank Feld für Feld durch. Wenn Sie mit Ja/Nein fragen, erhalten Sie falsche Positive, die Sie nicht möchten. Bitten Sie den Unternehmensvertreter, zu erklären, warum oder welche Konsequenzen oder regulatorischen Auswirkungen es hat, bestimmte Daten nicht zu anonymisieren.

Wenn Ihre Datenbank winzig ist, ein einfaches Datenmodell hat und von den aktuellen Datenbankadministratoren gut verstanden wird, ist Scripting möglicherweise die Antwort. Der Aufwand (und die Kosten) für die manuelle Analyse und Maskierung typischer Datenbanken können jedoch ziemlich schnell außer Kontrolle geraten, wenn sich die Anforderungen ändern, Funktionen hinzugefügt werden und Entwickler/Datenbankadministratoren kommen und gehen.

Obwohl mir keine Open-Source-Datenmaskierungsprodukte bekannt sind, gibt es kommerzielle Angebote, die relativ umfassend, relativ einfach zu verwenden und möglicherweise kostengünstig sind. Viele von ihnen verfügen über eine sofort einsatzbereite Erkennungsfunktion zum Identifizieren und Klassifizieren vertraulicher Daten (SSN, Kreditkarten, Telefonnummern) sowie Funktionen zum Verwalten der Prüfsummen, der Formatierung von E-Mail-Adressen, der Datengruppierung usw., sodass Daten maskiert werden sieht aus und fühlt sich echt an.

Aber du musst nicht mein (zugegebenermaßen voreingenommenes) Wort dafür nehmen. Fragen Sie die Branchenanalysten wie Gartner oder Forrester, die über eine Reihe unvoreingenommener Berichte zur Maskierung verfügen, die möglicherweise hilfreich sind.

Hoffentlich werden diese Kommentare Sie dazu ermutigen, sich mit kommerziellen Produkten sowie der internen Skriptentwicklung zu befassen. Letztendlich ist es das Wichtigste, die sensiblen Daten zu schützen, die viele von uns Tag für Tag sehen und die wir wirklich nicht sehen müssen, um unsere Arbeit zu erledigen - uns und die Menschen, deren Personal Daten, die wir in Gefahr halten.

Kevin Hillier, Senior Integration Specialist bei Camouflage Software Inc.

5
user757

Ich hatte vor ein paar Wochen die gleiche Aufgabe. Wir haben einige Softwaresysteme evaluiert, aber die meisten davon sind nur für genau einen Datenbanktyp, z. Oracle und sie sind oft sehr kompliziert zu bedienen ... also ähm, nicht das Schönste, um dies zu bewerten. Wir haben Wochen gebraucht.

Wir haben uns für die professionelle Version der Data Masking Suite entschieden, da diese am einfachsten zu verwenden war. Es hat auch coole Möglichkeiten, Daten zu maskieren, z. Sie können E-Mail-Adressen in echt aussehende ändern, z. ... @ siemens.com an [email protected]

Soweit ich mich erinnere, können Sie es für ungefähr 500 (?) Datensätze kostenlos testen.

Hier ist der Link http://www.data-masking-tool.com/

3
SaJoe

Ich habe diesen Weg vor einigen Jahren zum ersten Mal eingeschlagen und seitdem eine Beratung aufgebaut, die auf dieser Praxis basiert.

Ich gehe davon aus, dass der Zweck darin besteht, Testdaten für die Verwendung in Testumgebungen zu erstellen, in denen Personen, die auf die Daten zugreifen, keine Rechte zum Anzeigen der Produktionsinformationen haben.

Als Erstes müssen Sie genau festlegen, welche Datenelemente Sie maskieren müssen. Um dies zu tun, beginnen Sie am besten mit einem Datenerkennungstool wie Schema Spy (Open Source). Für diese Aufgabe benötigen Sie jedoch den entsprechenden JDBC-Treiber ist ein sehr nützlicher Schritt in diesem Prozess.

Talend Open Studio ist eines der besten Tools, mit denen ich in den letzten Jahren einige der ETL-Funktionen ausgeführt habe, und Sie können auch einige grundlegende Maskierungsübungen durchführen, indem Sie Werte durch zufällige oder ersetzen. Suchen/Ersetzen - um die Konsistenz zu gewährleisten - mithilfe der Kartenkomponente.

Wenn Sie jedoch nach einem echten Datenmaskierungswerkzeug suchen, habe ich kein geeignetes Open Source-Werkzeug gefunden. Wenn Sie ein sehr moderates Budget für Tools haben, würde ich Data Masker vorschlagen, aber Sie müssen einige Import- und Exportvorgänge über MS SQL oder Oracle durchführen, da die Verbindung nur über diese Protokolle hergestellt wird.

Informationen zu Datenmaskierung und Datenmaskierung finden Sie unter http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset Methodik, Datenerkennung und Testdatenverwaltung. Es gibt auch einen nützlichen Blog unter http://www.dataobfuscation.com.a

2
user25272

Meine Art dies zu tun:

  1. Erstellen Sie eine neue Datenbank mit nur Ansichts- und Auswahlrechten für die Benutzer
  2. Erstellen Sie Ansichten für Tabellen, die in anderen Datenbanken angezeigt werden sollen
  3. Maskieren Sie Spalten, die maskiert werden müssen durch: repeat ('*', char_length (column to be masked))
2

Am besten gefällt mir IRI FieldShield ( https://www.iri.com/products/fieldshield ) in Bezug auf Vielseitigkeit (die meisten Datenmaskierungsfunktionen), Geschwindigkeit (CoSort-Engine für Datenbewegungen im Inneren). und Ergonomie (einfache 4GL-Jobs, die in der Eclipse-Benutzeroberfläche mit unzähligen DB- und Dateiverbindungen unterstützt werden). Preislich sind es etwa die Hälfte von IBM und Informatica, obwohl es auch in einer größeren Datenintegrationssuite für die Transformation, Migration und BI von Big Data verfügbar ist. Es ist also auch nicht kostenlos, sondern verwendet Open Source (die IDE und kann OpenSSL und GPG verwenden) und die Skripte laufen unter Windows, Linux und anderen Unix-Varianten.

1
Urvashi Saxena

In diesem Jahr habe ich die Möglichkeit, mit IBM Optim zusammenzuarbeiten, das behauptet, das zu tun, was verlangt wird. Ist nicht kostenlos, aber es funktioniert gut.

1
Mendes

Informatica bietet auf dem Markt ein Tool namens Informatica ILM (TDM) an. Dies verwendet PowerCenter als Backone für ETL- und Maskendaten mit verschiedenen verfügbaren Maskierungsoptionen. Sie benötigen jedoch einen Datenanalysten oder SME, der verstehen kann, wie die Daten maskiert werden sollen. Das Tool selbst liefert keine Informationen darüber, welche Felder maskiert werden sollen, es gibt jedoch einen internen Algorithmus oder eine Prozedur oder einen internen Prozess um senstive Datenfelder wie Name, ID-Spalten mit Nummer, Kreditkarte, SSN-Nummer, Kontonummer usw. zu identifizieren.

1
Awadhesh Yona