it-swarm.com.de

Unterschied zwischen Klassifizierung und Clustering im Data Mining?

Kann jemand erklären, was der Unterschied zwischen Klassifizierung und Clustering im Data Mining ist?

Wenn Sie können, geben Sie bitte Beispiele für beide, um die Grundidee zu verstehen.

174
Kristaps

Im Allgemeinen verfügen Sie bei der Klassifizierung über eine Reihe vordefinierter Klassen und möchten wissen, zu welcher Klasse ein neues Objekt gehört.

Beim Clustering wird versucht, eine Gruppe von Objekten zu gruppieren und herauszufinden, ob zwischen den Objekten einige eine Beziehung besteht.

Im Rahmen des maschinellen Lernens ist Klassifizierung überwachtes Lernen und Clustering unbeaufsichtigtes Lernen .

Siehe auch Classification und Clustering bei Wikipedia.

219
Felix Kling

Bitte lesen Sie die folgenden Informationen:

 enter image description here

 enter image description here  enter image description here

65
Sayali Sonawane

Wenn Sie diese Frage an Data-Mining- oder Machine-Learning-Personen gestellt haben, verwenden sie den Begriff "überwachtes Lernen" und "unbeaufsichtigtes Lernen", um Ihnen den Unterschied zwischen Clustering und Klassifizierung zu erklären. Lassen Sie mich Ihnen zunächst das überwachte und unbeaufsichtigte Schlüsselwort erläutern.

Überwachtes Lernen: Angenommen, Sie haben einen Korb, der mit frischem Obst gefüllt ist und Ihre Aufgabe darin besteht, dieselbe Sorte an einem Ort zusammenzustellen. Angenommen, die Früchte sind Apfel, Banane, Kirsche und Traube. Damit Sie bereits aus Ihrer vorherigen Arbeit wissen, ist die Form der einzelnen Früchte so einfach, dass die gleiche Art von Früchten an einem Ort angeordnet werden kann. Dort, wo Ihre bisherige Arbeit als trainierte Daten im Data Mining bezeichnet wird, werden Sie die Dinge bereits aus Ihren trainierten Daten lernen. Dies liegt daran, dass Sie eine Antwortvariable haben, die Ihnen sagt, dass einige Früchte über so und so verfügen ist Traube, so für jede einzelne Frucht.

Diese Art von Daten erhalten Sie aus den trainierten Daten. Diese Art des Lernens wird als beaufsichtigtes Lernen bezeichnet. Dieses Problem der Art der Lösung wird unter Klassifizierung angegeben. So lernen Sie bereits, was Sie tun können Job zuversichtlich.

unbeaufsichtigt: Angenommen, Sie haben einen Korb, der mit frischem Obst gefüllt ist und Ihre Aufgabe darin besteht, die gleiche Sorte an einem Ort anzuordnen.

Dieses Mal wissen Sie nichts über diese Früchte, Sie werden zum ersten Mal diese Früchte sehen, also wie werden Sie dieselbe Art von Früchten anordnen?.

Was Sie zuerst tun werden, ist, Sie nehmen die Frucht und Sie werden jeden physischen Charakter dieser bestimmten Frucht auswählen. Angenommen, Sie haben Farbe genommen.

Dann ordnen Sie sie nach der Farbe, dann werden die Gruppen so etwas sein .. /. ROTE FARBGRUPPE: Äpfel und Kirschfrüchte . GRÜNE FARBGRUPPE: Bananen & Trauben Nun werden Sie einen anderen physischen Charakter als Größe annehmen, also werden die Gruppen jetzt so etwas sein .. -. ROTE FARBE UND GROSSE GRÖSSE: Apple . ROTE FARBE UND KLEIN GRÖSSE: Kirschfrüchte . GRÜNE FARBE UND GROSSE GRÖSSE: Bananen . GRÜNE FARBE UND KLEINE GRÖSSE : Trauben . Job erledigt Happy End.

hier haben Sie noch nichts gelernt, dh es gibt keine Zugdaten und keine Antwortvariable. Diese Art des Lernens ist bekanntlich unbeaufsichtigtes Lernen. Clustering kommt unter unbeaufsichtigtem Lernen.

52
M.Abulsoud

+ Klassifizierung: Sie erhalten neue Daten, Sie müssen ein neues Label dafür setzen.

Ein Unternehmen möchte beispielsweise seine potenziellen Kunden klassifizieren. Wenn ein neuer Kunde kommt, muss er feststellen, ob dies ein Kunde ist, der seine Produkte kaufen wird oder nicht.

+ Clustering: Sie erhalten eine Reihe von Verlaufstransaktionen, die aufgezeichnet haben, wer was gekauft hat.

Durch die Verwendung von Clustering-Techniken können Sie die Segmentierung Ihrer Kunden erkennen. 

17
studyhorror

Ich bin sicher, einige von Ihnen haben von maschinellem Lernen gehört. Ein Dutzend von Ihnen könnte sogar wissen, was es ist. Und ein paar von Ihnen haben vielleicht auch mit Algorithmen für maschinelles Lernen gearbeitet. Siehst du, wohin das führt? Nicht viele Menschen sind mit der Technologie vertraut, die in 5 Jahren unabdingbar sein wird. Siri ist maschinelles Lernen. Amazons Alexa ist maschinelles Lernen. Empfehlungssysteme für Anzeigen und Artikel sind maschinelles Lernen. Versuchen wir, maschinelles Lernen mit einer einfachen Analogie eines 2-jährigen Jungen zu verstehen. Nur zum Spaß Nennen wir ihn Kylo Ren

Source : blog.printkeg.com

Nehmen wir an, Kylo Ren hat einen Elefanten gesehen. Was wird ihm sein Gehirn sagen? (Denken Sie daran, dass er nur über eine minimale Denkfähigkeit verfügt, auch wenn er der Nachfolger von Vader ist.) Sein Gehirn wird ihm sagen, dass er eine große, graue, sich bewegende Kreatur gesehen hat. Als nächstes sieht er eine Katze, und sein Gehirn sagt ihm, dass es sich um eine kleine, sich bewegende Kreatur handelt, die eine goldene Farbe hat. Schließlich sieht er als nächstes ein Lichtschwert und sein Gehirn sagt ihm, dass es sich um ein nicht lebendes Objekt handelt, mit dem er spielen kann!

Sein Gehirn weiß zu diesem Zeitpunkt, dass sich der Säbel vom Elefanten und von der Katze unterscheidet, weil der Säbel etwas ist, mit dem man spielen kann und das sich nicht von alleine bewegt. Sein Gehirn kann so viel herausfinden, selbst wenn Kylo nicht weiß, was Bewegung bedeutet. Dieses einfache Phänomen wird als Clustering bezeichnet.

Source : jeffcarpenterblog.tumblr.com

Maschinelles Lernen ist nichts anderes als die mathematische Version dieses Prozesses. Eine Menge Leute, die Statistiken studieren, haben erkannt, dass sie einige Gleichungen genauso funktionieren lassen können wie das Gehirn. Das Gehirn kann ähnliche Objekte gruppieren, das Gehirn kann aus Fehlern lernen und das Gehirn kann lernen, Dinge zu identifizieren.

All dies kann mit Statistiken dargestellt werden, und die computergestützte Simulation dieses Prozesses wird als maschinelles Lernen bezeichnet. Warum brauchen wir die computergestützte Simulation? weil Computer schweres Rechnen schneller können als menschliche Gehirne. Ich würde gerne auf den mathematisch/statistischen Teil des maschinellen Lernens eingehen, aber Sie möchten nicht darauf eingehen, ohne zuerst einige Konzepte zu klären.

Kehren wir zu Kylo Ren zurück. Nehmen wir an, Kylo nimmt den Säbel und beginnt damit zu spielen. Er trifft versehentlich einen Sturmtruppler und der Sturmtruppler wird verletzt. Er versteht nicht, was los ist und spielt weiter. Als nächstes schlägt er eine Katze und die Katze wird verletzt. Diesmal ist sich Kylo sicher, dass er etwas Schlimmes getan hat und versucht, etwas vorsichtig zu sein. Aber angesichts seiner schlechten Säbelfähigkeiten schlägt er den Elefanten und ist sich absolut sicher, dass er in Schwierigkeiten ist. Danach wird er äußerst vorsichtig und trifft seinen Vater nur absichtlich, wie wir in Force Awakens gesehen haben !!

Source : joyreactor.com

Dieser gesamte Prozess des Lernens aus Ihrem Fehler kann mit Gleichungen nachgeahmt werden, bei denen das Gefühl, etwas falsch zu machen, durch einen Fehler oder Kosten dargestellt wird. Dieser Prozess des Identifizierens, was nicht mit einem Säbel zu tun ist, wird Klassifizierung genannt. Clustering und Klassifikation sind die absoluten Grundlagen des maschinellen Lernens. Schauen wir uns den Unterschied zwischen ihnen an.

Kylo unterschied zwischen Tieren und Lichtschwert, weil sein Gehirn entschied, dass Lichtschwerter sich nicht von selbst bewegen können und daher unterschiedlich sind. Die Entscheidung basierte ausschließlich auf den vorhandenen Objekten (Daten) und es wurde keine externe Hilfe oder Beratung bereitgestellt. Im Gegensatz dazu differenzierte Kylo die Wichtigkeit, mit Lichtschwert vorsichtig zu sein, indem er zuerst beobachtete, was ein Aufprall auf ein Objekt bewirken kann. Die Entscheidung beruhte nicht vollständig auf dem Säbel, sondern darauf, was er mit verschiedenen Objekten tun konnte. Kurz gesagt, hier gab es etwas Hilfe.

Source: pintrest

Aufgrund dieses Lernunterschieds wird das Clustering als nicht überwachte Lernmethode und die Klassifizierung als überwachte Lernmethode bezeichnet. Sie sind in der Welt des maschinellen Lernens sehr unterschiedlich und werden oft durch die Art der vorhandenen Daten bestimmt. Beschriftete Daten zu erhalten (oder Dinge, die uns beim Lernen helfen, wie Stormtrooper, Elefant und Katze in Kylos Fall) ist oft nicht einfach und wird sehr kompliziert, wenn die zu differenzierenden Daten groß sind. Auf der anderen Seite kann das Lernen ohne Labels auch Nachteile mit sich bringen, zum Beispiel, dass Sie nicht wissen, wie die Label-Titel lauten. Wenn Kylo lernen würde, ohne Beispiele oder Hilfe vorsichtig mit dem Säbel umzugehen, würde er nicht wissen, was es tun würde. Er würde nur wissen, dass es nicht nötig ist, es zu tun. Es ist eine Art lahme Analogie, aber Sie verstehen, worum es geht!

Wir fangen gerade erst mit maschinellem Lernen an. Die Klassifizierung selbst kann eine Klassifizierung von fortlaufenden Nummern oder eine Klassifizierung von Etiketten sein. Wenn Kylo zum Beispiel die Größe jedes Sturmtrupplers klassifizieren müsste, gäbe es viele Antworten, da die Höhen 5,0, 5,01, 5,011 usw. sein können. Eine einfache Klassifizierung wäre jedoch die von Lichtschwertern (rot, blau, grün). hätte sehr begrenzte Antworten. Tatsächlich können sie mit einfachen Zahlen dargestellt werden. Rot kann 0 sein, Blau kann 1 sein und Grün kann 2 sein.

Wenn Sie sich mit Grundlagen der Mathematik auskennen, wissen Sie, dass sich 0,1,2 und 5.1,5.01,5.011 unterscheiden und als diskrete bzw. kontinuierliche Zahlen bezeichnet werden. Die Klassifizierung diskreter Zahlen wird als logistische Regression bezeichnet, und die Klassifizierung kontinuierlicher Zahlen wird als Regression bezeichnet. Die logistische Regression wird auch als kategoriale Klassifizierung bezeichnet. Seien Sie also nicht verwirrt, wenn Sie diesen Begriff an einer anderen Stelle lesen

Dies war eine sehr grundlegende Einführung in das maschinelle Lernen. Ich werde in meinem nächsten Beitrag auf die statistische Seite eingehen. Bitte lassen Sie mich wissen, wenn ich irgendwelche Korrekturen benötige :)

Zweiter Teil gepostet hier . enter image description here

14
Amit Juneja

Einstufung

Ist die Zuordnung von vordefinierte Klassen zu neue Beobachtungen, basierend auf Lernen aus Beispielen.

Es ist eine der Schlüsselaufgaben beim maschinellen Lernen.

Clustering (oder Clusteranalyse)

Im Volksmund als "unbeaufsichtigte Klassifikation" abgetan, ist es doch etwas anderes.

Im Gegensatz zu dem, was viele Maschinenlerner Ihnen beibringen werden, geht es nicht darum, Objekten "Klassen" zuzuweisen, sondern sie vordefinieren zu lassen. Dies ist die sehr eingeschränkte Sichtweise von Menschen, die zu viel klassifiziert haben. Ein typisches Beispiel für , wenn Sie einen Hammer (Klassifikator) haben, sieht für Sie alles aus wie ein Nagel (Klassifikationsproblem) . Aber es ist auch der Grund, warum Menschen, die klassifiziert werden, keinen Einfluss auf Clustering haben.

Betrachten Sie es stattdessen als Strukturerkennung. Die Aufgabe des Clustering besteht darin, Strukturen (z. B. Gruppen) in Ihren Daten zu finden, die Sie vorher nicht gekannt haben. Das Clustering war erfolgreich , wenn Sie etwas Neues gelernt haben. Es schlug fehl, wenn Sie nur die Struktur bekamen, die Sie bereits kannten.

Die Clusteranalyse ist eine Schlüsselaufgabe des Data Mining (und das hässliche Entlein beim maschinellen Lernen. Hören Sie also nicht zu, dass maschinelle Lernende das Clustering ablehnen).

"Unbeaufsichtigtes Lernen" ist etwas ein Oxymoron

Dies wurde in der Literatur auf und ab wiederholt, aber unbeaufsichtigtes Lernen ist b llsh t. Es existiert nicht, aber es ist ein Oxymoron wie "militärischer Geheimdienst".

Entweder lernt der Algorithmus aus Beispielen (dann ist es "überwachtes Lernen") oder er lernt nicht. Wenn alle Clustering-Methoden "Lernen" sind, ist die Berechnung von Minimum, Maximum und Durchschnitt eines Datensatzes ebenfalls "unbeaufsichtigtes Lernen". Dann "lernte" jede Berechnung ihre Ausgabe. Also der Begriff 'unbeaufsichtigtes Lernen' ist völlig bedeutungslos bedeutet alles und nichts.

Einige "unbeaufsichtigte Lern" -Algorithmen fallen jedoch in die Kategorie Optimierung. Zum Beispiel ist k-means eine Optimierung der kleinsten Quadrate. Solche Methoden sind in Statistiken allgegenwärtig, daher denke ich, dass wir sie nicht als "unbeaufsichtigtes Lernen" bezeichnen müssen, sondern sie weiterhin als "Optimierungsprobleme" bezeichnen sollten. Es ist präziser und aussagekräftiger. Es gibt viele Clustering-Algorithmen, bei denen keine Optimierung erforderlich ist und die nicht gut in die Paradigmen des maschinellen Lernens passen. Hören Sie also auf, sie unter dem Motto "unbeaufsichtigtes Lernen" hineinzudrücken.

Mit Clustering ist ein gewisses "Lernen" verbunden, aber es ist nicht das Programm, das lernt. Es ist der Benutzer, der neue Dinge über seinen Datensatz lernen soll.

6
Anony-Mousse

Ich bin ein Neuling in Data Mining, aber wie mein Lehrbuch sagt, soll CLASSICIATION das Lernen und das CLUSTERING unüberwachtes Lernen überwachen. Den Unterschied zwischen beaufsichtigtem Lernen und unüberwachtem Lernen finden Sie hier .

6
leo

Durch Clustering können Sie Daten mit Ihren gewünschten Eigenschaften gruppieren, z. B. der Anzahl, der Form und anderen Eigenschaften extrahierter Cluster. Während bei der Klassifizierung die Anzahl und die Form von Gruppen fest sind .. Die meisten Clusteralgorithmen geben die Anzahl der Cluster als Parameter an. Es gibt jedoch einige Ansätze, um die geeignete Anzahl von Clustern herauszufinden.

Aus dem Buch Mahout in Action, und ich denke, es erklärt den Unterschied sehr gut:

Klassifizierungsalgorithmen beziehen sich auf Clustering-Algorithmen wie den K-Means-Algorithmus, unterscheiden sich aber immer noch davon. 

Klassifizierungsalgorithmen sind eine Form von beaufsichtigtem Lernen, im Gegensatz zu unüberwachtem Lernen, das bei Clustering-Algorithmen auftritt. 

Ein beaufsichtigter Lernalgorithmus ist ein Beispiel, das den gewünschten Wert einer Zielvariablen enthält. Unüberwachte Algorithmen erhalten nicht die gewünschte Antwort, sondern müssen selbst etwas Plausibles finden.

1
aristotll

Klassifizierung – Prognostiziert kategoriale Klassenbeschriftungen – Klassifiziert Daten (erstellt ein Modell) basierend auf einem Trainingssatz und den Werten (Klassenbeschriftungen) in einem Klassenbeschriftungsattribut – Verwendet das Modell zur Klassifizierung neuer Daten

Cluster: Eine Sammlung von Datenobjekten – Ähnlich innerhalb eines Clusters – Unähnlich den Objekten in anderen Clustern

1
George

Zuallererst möchte ich sagen, dass viele vor dieser Frage antworten, dass die Klassifizierung durch das Lernen überwacht wird und das Clustering nicht überwacht wird. Das heisst:

  1. Bei der Klassifizierung müssen die Daten mit einem Label versehen werden, damit die Klassifizierer auf diese Daten trainiert werden können und danach beginnen, neue, unsichtbare Daten basierend auf dem, was er weiß, zu klassifizieren. Unbeaufsichtigtes Lernen wie das Clustering verwendet keine beschrifteten Daten. Tatsächlich werden dabei intrinsische Strukturen in den Daten wie Gruppen entdeckt. 

  2. Ein weiterer Unterschied zwischen beiden Techniken (bezogen auf die vorherige) ist die Tatsache, dass die Klassifizierung eine Form eines diskreten Regressionsproblems ist, bei dem die Ausgabe eine kategoriale abhängige Variable ist. Die Ausgabe von Clustering führt zu einer Gruppe von Gruppen, die als Gruppen bezeichnet werden. Die Art und Weise, wie diese beiden Modelle bewertet werden können, unterscheidet sich aus demselben Grund: Bei der Klassifizierung müssen Sie häufig die Genauigkeit und den Rückruf prüfen, beispielsweise Überanpassung und Unteranpassung usw. Diese Faktoren zeigen Ihnen, wie gut das Modell ist. Beim Clustering benötigen Sie jedoch normalerweise die Vision und den Experten, um das, was Sie finden, zu interpretieren, weil Sie nicht wissen, welche Art von Struktur Sie haben (Typ der Gruppe oder des Clusters). Deshalb gehört Clustering zur explorativen Datenanalyse. 

  3. Abschließend möchte ich sagen, dass Anwendungen der Hauptunterschied zwischen beiden sind. Klassifizierung wie das Wort sagt, wird verwendet, um Instanzen zu unterscheiden, die zu einer Klasse oder einer anderen gehören, z. B. einem Mann oder einer Frau, einer Katze oder einem Hund usw. Clustering wird häufig bei der Diagnose einer medikanischen Krankheit, der Entdeckung von Mustern, verwendet. usw. 

Ich hoffe es hilft!!!

1
Oscar Gutierrez

Clustering zielt darauf ab, Gruppen in Daten zu finden. „Cluster“ ist ein intuitives Konzept und hat keine mathematisch strenge Definition. Die Mitglieder eines Clusters sollten einander ähnlich sein und den Mitgliedern anderer Cluster unähnlich sein. Ein Clustering-Algorithmus arbeitet mit einem unbeschrifteten Datensatz Z und erzeugt darauf eine Partition.

Bei Klassen und Klassenbezeichnungen enthält die Klasse Ähnliche Objekte, wohingegen Objekte aus verschiedenen Klassen Nicht ähnlich sind. Einige Klassen haben eine eindeutige Bedeutung und im einfachsten Fall schließen sich Gegenseitig aus. Bei der Signaturüberprüfung ist die Signatur zum Beispiel entweder Echt oder falsch. Die wahre Klasse ist eine der beiden, unabhängig davon, dass wir aus der Beobachtung einer bestimmten Signatur möglicherweise nicht richtig erraten können.

1
Dr.Eng.Amr

Maschinelles Lernen oder KI wird weitgehend von der durchgeführten Aufgabe wahrgenommen.

Meines Erachtens kann das Überlegen von Clustering und Klassifizierung in Bezug auf die geleistete Aufgabe wirklich dazu beitragen, den Unterschied zwischen beiden zu verstehen.

Clustering dient zum Gruppieren von Dingen und Klassifizierung zum Bezeichnen von Dingen.

Nehmen wir an, Sie befinden sich in einer Partyhalle, in der sich alle Männer in Anzügen befinden und Frauen in Kleidern.

Nun stellen Sie Ihrem Freund einige Fragen:

F1: Heyy, kannst du mir helfen, Leute zu gruppieren?

Mögliche Antworten, die Ihr Freund geben kann, sind:

1: Er kann Menschen nach Geschlecht, Mann oder Frau zusammenstellen

2: Er kann Menschen nach ihrer Kleidung gruppieren, 1 er trägt Anzüge und trägt andere Kleider

3: Er kann Menschen anhand der Haarfarbe gruppieren

4: Er kann Personen nach Altersgruppen, etc. usw. zusammenfassen.

Es gibt zahlreiche Möglichkeiten, mit denen Ihr Freund diese Aufgabe erledigen kann.

Natürlich können Sie seinen Entscheidungsprozess beeinflussen, indem Sie zusätzliche Eingaben vornehmen, wie z.

Können Sie mir helfen, diese Menschen nach Geschlecht (oder Altersgruppe, Haarfarbe oder Kleidung usw.) zu gruppieren?

Q2:

Vor Q2 müssen Sie einige Vorarbeiten erledigen.

Sie müssen Ihren Freund unterrichten oder informieren, damit er eine fundierte Entscheidung treffen kann. Nehmen wir an, Sie sagten zu Ihrem Freund:

  • Menschen mit langen Haaren sind Frauen.

  • Menschen mit kurzen Haaren sind Männer.

Q2. Jetzt weisen Sie auf eine Person mit langen Haaren und fragen Ihren Freund - ist es ein Mann oder eine Frau?

Die einzige Antwort, die Sie erwarten können, ist: Frau.

Natürlich können Männer mit langen Haaren und Frauen mit kurzen Haaren auf der Party sein. Die Antwort ist jedoch korrekt, basierend auf dem Lernen, das Sie Ihrem Freund vermittelt haben. Sie können den Prozess weiter verbessern, indem Sie Ihrem Freund mehr Informationen darüber geben, wie er zwischen den beiden unterscheiden kann.

In obigem Beispiel

Q1 repräsentiert die Aufgabe, die das Clustering erfüllt.

Im Clustering geben Sie die Daten (Personen) an den Algorithmus (Ihren Freund) an und bitten ihn, die Daten zu gruppieren. 

Nun liegt es am Algorithmus zu entscheiden, was der beste Weg zum Gruppieren ist. (Geschlecht, Farbe oder Altersgruppe).

Wiederum können Sie die vom Algorithmus getroffene Entscheidung definitiv beeinflussen, indem Sie zusätzliche Eingaben vornehmen.

Q2 repräsentiert die Aufgabe, die die Klassifizierung durchführt.

Dort geben Sie Ihrem Algorithmus (Ihrem Freund) einige Daten (Personen) an, die als Trainingsdaten bezeichnet werden, und veranlasst ihn, zu erfahren, welche Daten welcher Bezeichnung (männlich oder weiblich) entsprechen. Dann weisen Sie Ihren Algorithmus auf bestimmte Daten, die als Testdaten bezeichnet werden, und fragen, ob sie männlich oder weiblich sind. Je besser Ihr Unterricht ist, desto besser ist seine Vorhersage.

Die Vorarbeit in Q2 oder Klassifikation ist nichts anderes als das Training Ihres Modells, damit es lernen kann, sich zu differenzieren. In Clustering oder Q1 ist diese Vorarbeit der Teil der Gruppierung.

Hoffe das hilft jemandem.

Vielen Dank

0
Ikhurana

Ein Liner für die Klassifizierung:

Daten in vordefinierte Kategorien klassifizieren

Ein Liner für das Clustering:

Gruppieren von Daten in eine Reihe von Kategorien

Hauptunterschied:

Bei der Klassifizierung werden Daten in vordefinierte Kategorien eingeteilt, und im Clustering ist der Satz von Kategorien, in denen die Daten gruppiert werden sollen, im Voraus nicht bekannt.

Fazit:

  • Bei der Klassifizierung wird die Kategorie einem neuen Element zugewiesen. Dies basiert auf bereits mit Gekennzeichneten Elementen, während das Clustering eine Reihe nicht benannter Elemente enthält und diese in die Kategorien einteilt
  • In Classification sind die Kategorien, die aufgeteilt werden sollen, vorher bekannt Im Clustering sind die Kategorien, die aufgeteilt werden sollen Zuvor unbekannt
  • In der Klassifizierung gibt es zwei Phasen - die Trainingsphase und dann die Testphase, während im Clustering nur eine Phase vorhanden ist - die Aufteilung der Daten in Cluster
  • Die Klassifizierung wird überwacht, während Clustering .__ ist. Nicht überwachtes Lernen

Ich habe einen langen Beitrag zum selben Thema geschrieben, den Sie hier finden können: 

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-fragen-answers-part-i/

0
Neel

 enter image description here

Classification - Ein Datensatz kann verschiedene Gruppen/Klassen haben. rot, grün und schwarz. Die Klassifizierung versucht, Regeln zu finden, die sie in verschiedene Klassen einteilen. 

Custering- Wenn ein Datensatz keine Klasse hat und Sie diese in eine Klasse/Gruppierung aufnehmen möchten, führen Sie Clustering durch. Die lila Kreise oben. 

Wenn Klassifizierungsregeln nicht gut sind, haben Sie eine falsche Klassifizierung beim Testen oder ur-Regeln sind nicht richtig genug.
Wenn das Clustering nicht gut ist, werden Sie viele Ausreißer haben. Datenpunkte können nicht in einen Cluster fallen.

0
Arpit Sisodia

Clustering ist eine Methode, Objekte so zu gruppieren, dass Objekte mit ähnlichen Merkmalen zusammenkommen und Objekte mit unterschiedlichen Merkmalen auseinanderfallen. Es ist eine übliche Technik zur statistischen Datenanalyse, die beim maschinellen Lernen und Data Mining verwendet wird. 

Klassifizierung ist ein Prozess der Kategorisierung, bei dem Objekte anhand des Trainingsdatensatzes erkannt, unterschieden und verstanden werden. Klassifizierung ist eine überwachte Lernmethode, bei der ein Trainingssatz und korrekt definierte Beobachtungen verfügbar sind.

0
Sumit Ranjan

Classification: Vorhersage der Ergebnisse einer diskreten Ausgabe => Zuordnung von Eingangsvariablen in diskrete Kategorien

Beliebte Anwendungsfälle:

  1. E-Mail-Klassifizierung: Spam oder Nicht-Spam

  2. Sanktionsdarlehen an Kunden: Ja, wenn er EMI für den genehmigten Darlehensbetrag bezahlen kann. Nein, wenn er nicht kann

  3. Identifizierung von Krebstumorzellen: Ist dies kritisch oder unkritisch?

  4. Sentiment-Analyse von Tweets: Ist der Tweet positiv oder negativ oder neutral?

  5. Klassifizierung der Nachrichten: Klassifizieren Sie die Nachrichten in eine der vordefinierten Klassen - Politik, Sport, Gesundheit etc

Clustering: ist die Aufgabe, eine Gruppe von Objekten so zu gruppieren, dass Objekte in derselben Gruppe (als Cluster bezeichnet) einander (in gewissem Sinne) ähnlicher sind als Objekten in anderen Gruppen (Cluster).

Beliebte Anwendungsfälle:

  1. Marketing: Entdecken Sie Kundensegmente für Marketingzwecke

  2. Biologie: Einstufung zwischen verschiedenen Pflanzen- und Tierarten

  3. Bibliotheken: Gruppieren verschiedener Bücher nach Themen und Informationen

  4. Versicherung: Bestätigen Sie die Kunden, ihre Richtlinien und die Identifizierung von Betrug

  5. Stadtplanung: Erstellen Sie Gruppen von Häusern und untersuchen Sie deren Werte anhand ihrer geographischen Lage und anderer Faktoren.

  6. Erdbebenstudien: Ermittlung gefährlicher Zonen

  7. Empfehlungssystem

Verweise:

geeksforgeeks

Datenspirant

0
Ravindra babu

Die Hauptunterschiede zwischen Klassifizierung und Clustering sind: Klassifizierung ist der Prozess der Klassifizierung der Daten mithilfe von Klassenbezeichnungen. Auf der anderen Seite ähnelt das Clustering der Klassifizierung, es gibt jedoch keine vordefinierten Klassenbezeichnungen. Die Klassifizierung ist auf das überwachte Lernen ausgerichtet. Im Gegensatz dazu wird Clustering auch als unüberwachtes Lernen bezeichnet. Das Trainingsmuster wird in der Klassifizierungsmethode bereitgestellt, während im Falle von Clustering keine Trainingsdaten bereitgestellt werden.

Hoffe das wird helfen!

0
Moh K

Wenn Sie versuchen, eine große Anzahl von Blättern in Ihrem Regal abzulegen (basierend auf dem Datum oder einer anderen Spezifikation der Datei), sind Sie KLASSIFIZIERT.

Wenn Sie aus dem Blattsatz Cluster erstellen, bedeutet dies, dass sich unter den Blättern etwas ähnliches befindet.

0
0aslam0

Im Data Mining gibt es zwei Definitionen: "Überwacht" und "Nicht überwacht" . Wenn jemand dem Computer Algorithmus oder Code sagt, ... dass dieses Ding wie ein Apple ist und dieses Ding wie eine Orange ist, ist dies das überwachte Lernen Durch die Verwendung von überwachtem Lernen (wie Tags für jede Probe in einem Datensatz) zur Klassifizierung der Daten erhalten Sie eine Klassifizierung. Wenn Sie jedoch den Computer herausfinden lassen, was was ist, und zwischen Merkmalen des jeweiligen Datensatzes unterscheiden, die in der Tat unbeaufsichtigt lernen, um den Datensatz zu klassifizieren, wird dies als Clustering bezeichnet. In diesem Fall haben Daten, die dem Algorithmus zugeführt werden, keine Tags und der Algorithmus sollte verschiedene Klassen herausfinden.

0
siii fsxa