it-swarm.com.de

Duplikate in Gruppe oder Kategorie anzeigen

Ich arbeite an einer Anwendung, die Milliarden von Datensätzen verarbeitet, wobei viele Datensätze Duplikate sein können. Meine Aufgabe ist es, das Auffinden und Korrigieren der doppelten Daten zu vereinfachen, aber ich bin etwas verwirrt darüber, wie doppelte Datensätze angezeigt werden, damit der Administrator oder ein autorisierter Benutzer darauf reagieren kann

Was ich denke:

Ich werde Tortendiagramm mit Kategorien erstellen

Kuchen Chat 1:

  1. Name:

    1. First Name
    2. Middle Name
    3. Last Name
    4. Family name
    

Kreisdiagramm 2:

  1. Adresse

    1. Offiziell
    2. Wohn
      1. Privatnummer
      2. straßenname
      3. Telefonnummer
      4. Geheimzahl

Und es könnten viele Felder (25+) pro Datensatz wie Ausweis, Bank-A/C-Nummer, Sozialversicherungsnummer usw. vorhanden sein

beispiel: Ich habe 5 Datensätze in einer Gruppe, in denen jeder Datensatz unterschiedliche Handynummern enthält, der Rest der Daten jedoch gleich ist. Also werde ich sie in der Telefonkategorie gruppieren

Frage:

  1. Wie gehe ich mit der Situation um (viele Gruppen) und lege sie auf den Bildschirm?
  2. Das Erstellen von mehr als 25 Kreisdiagrammen und das anschließende Drilldown auf die x-Ebene ist eine mühsame Aufgabe. Irgendwelche Vorschläge hier?
2
Hemchandra

Für mich sieht das nach Berichten aus, in denen der Administrator Probleme mit Duplikaten lösen sollte. Das Kreisdiagramm wird eher zur Visualisierung von Daten als Teile des gesamten Informationssatzes verwendet. Ein Beispiel für das Kreisdiagramm können Verkäufe nach Regionen des Gesamtumsatzes sein ... wie folgt:

Sales by region example

In diesem Fall würde eine einfache Liste den Job erledigen. Stellen Sie eine Liste möglicher Duplikate bereit, in der Sie zwischen der Anzeige der gesamten Liste und nur der Auflistung von Elementen mit Problemen wechseln können (wo Sie den Administrator benachrichtigen).

mockup

bmml source herunterladen - Wireframes erstellt mit Balsamiq Mockups

Diese Liste von Problemen ist eine Drilldown-Liste, in der Name im nächsten Bildschirm um Unterelemente des Namens (first, last, middle, ...) erweitert wird. . Dies ist eine bessere Möglichkeit, Probleme anzuzeigen, die von Administratoren gelöst werden müssen.

1
Benny Skogberg

Die wichtigste Frage lautet "Was benötigen Ihre Administratoren, um festzustellen, ob es sich um ein Duplikat handelt?", Und die zweite wichtige Frage lautet (ich denke) "Was tun die dagegen?".

Ein Kreisdiagramm (oder ein anderes Diagramm oder ein anderer Bericht), das dem Administrator angibt, welche Art von Unterschied (Mobiltelefon vs. Straße Nr. Vs. Sozialversicherungsnummer) überhaupt nicht dazu beiträgt, festzustellen, welche Datensätze Duplikate sind. Daher stimme ich @Benny zu, dass Sie keine Diagramme verwenden sollten.

Ich denke, Sie sollten etwas algorithmische Intelligenz in Ihr Programm investieren, damit es den Administratoren hilft: Welche Datensätze sind höchstwahrscheinlich Duplikate? Welche Felder variieren am wahrscheinlichsten, wenn es sich um dieselbe Person handelt? Beispielsweise kann ein Tippfehler auf der Handynummer häufiger auftreten als ein Tippfehler auf dem Namen. Wenn in Sozialversicherungsnummern eine Prüfsumme integriert ist (ich weiß nicht, ob), ist ein Typ darauf noch weniger wahrscheinlich (vorausgesetzt, er wurde bei der Eingabe validiert - wenn nicht, können Sie falsche validieren und kennzeichnen). Wenn zwei Felder variieren, steigt auch die Wahrscheinlichkeit, dass der Datensatz verschiedene Personen identifiziert. Ihr Programm lernt möglicherweise sogar aus der doppelten Identifizierung, die Ihre Administratoren letztendlich vornehmen, welche der Felder für die eindeutige Identifizierung weniger relevant sind.

Basierend auf solchen Indikatoren sollte Ihr Programm eine Liste der wahrscheinlichsten Duplikate enthalten. Es sollte auch angegeben werden, welches der Duplikate wahrscheinlich das richtige ist. Beispielsweise kann eine beschädigte Sozialversicherungsnummer als einziger Unterschied beseitigt werden. Wenn sich die Handynummern unterscheiden, kann davon ausgegangen werden, dass der neuere Datensatz korrekt ist, da die Person möglicherweise ihren Anbieter gewechselt hat.

Zusammenfassung: Ich denke, Ihr Programm sollte eine Rangliste mit wahrscheinlichen Duplikaten enthalten, in der der wahrscheinlich am besten richtige Kandidat (der aus mehreren Duplikaten kombiniert werden kann) als Vorschlag markiert ist. Die Benutzeroberfläche enthält also eine Rangliste von Datensatzgruppen, wobei in jeder Gruppe eine Auswahl der richtigen möglich ist, einschließlich einer Standardauswahl. Ihre Administratoren können durch die Liste fliegen und den richtigen Kandidaten in jeder Gruppe auswählen, wodurch die Liste der Duplikate reduziert wird.

0
virtualnobi