it-swarm.com.de

Große öffentliche Datensätze?

Ich suche nach großen öffentlichen Datensätzen, insbesondere:

  1. Umfangreiche Beispiel-Webserverprotokolle, die anonymisiert wurden.

  2. Datensätze, die für das Benchmarking der Datenbankleistung verwendet werden.

Alle anderen Links zu großen öffentlichen Datensätzen sind willkommen. Ich kenne bereits die öffentlichen Datensätze von Amazon unter: http://aws.Amazon.com/publicdatasets/

63
Jason

1. Große Beispiel-Webserver-Protokolle, die anonymisiert wurden.

Diese Arbeiten beginnen mit:

Es gibt viel, viel mehr Datensätze als diese (siehe die Bandbreite der anderen Antworten), aber dies ist die niedrigste Frucht, die Ihren ursprünglichen Kriterien entspricht. Als Bonus haben sie einen Kontaktlink wenn Sie spezielle Bedürfnisse haben, von denen sie vielleicht wissen.

2. Datensätze, die für das Benchmarking der Datenbankleistung verwendet werden.

Dies klingt nach einer falschen Bezeichnung, da Sie nach empirischen Datensätzen fragen, die genau definiertalgorithmischProbleme beschreiben. Insbesondere scheint es, als würden Sie versuchen, Datensätze zu finden, mit denen Sie verschiedene Datenbanksysteme in Echtzeit testen und vergleichen können. Dabei werden gut definierte, normalisierte relationale Daten verwendet, die als Satz von Testfällen für die Ermittlung der Daten verwendet werden können effizienteste Lösung, die Ihren Anforderungen entspricht.

Ich stimme diesem Ansatz nicht zu. Anstatt eine Litanei von Datenbanksystemen und deren vordefinierten Implementierungen zu finden, ist es weitaus besser, die algorithmischenGarantien dieser Systeme als Ihre erste Anlaufstelle zu untersuchen. Sobald Sie die algorithmischen Einschränkungen ermittelt haben, die Ihren Anforderungen entsprechen, können Sie eine Reihe von vordefinierten Lösungen verwenden, die Sie hinsichtlich der Effizienz bewerten können, z. B. Indizieren, Sortieren, Suchen, Einfügen, Löschen und Abrufen.

Wikipedia bietet einen knappen Artikel zu Konzepten für Datenbanktests , mit dem Sie Testfälle für das Benchmarking der Leistung ermitteln und schreiben können. Beispielsweise können Sie eine Schnittstelle für den nicht-statistischen Datenzugriff wie JDBC und JDBC-Benchmark verwenden, um die relativen Zeitabläufe für jede Operation zu bestimmen. Von hier aus können Sie die richtige Lösung finden.

Kurz gesagt, gehen Sie zunächst zu der Recherche , um die Datenbankgarantien zu ermitteln. Sobald ein Satz von Lösungskandidaten identifiziert wurde, können Sie unter diesen auswählen, indem Sie die konstante Zeitleistung jeder gewünschten Operation testen (oder auf andere Weise bestimmen).

29
MrGomez

Based on Quora answers and my personal collections in my studies, an awesome-public-datasets repository was created and updated lively on GitHub:

Below is a snapshot version of this list. For a newest list, please visit Github:

This list of public data sources are collected and tidied from blogs, answers, and user responses. Most of the data sets listed below are free, however, some are not. This list comes from https://github.com/caesar0301/awesome-public-datasets.

Climate

Economics

Finance

Biology

Physics

Healthcare

GeoSpace

Transportation

Government

Data Challenges

Machine Learning

Natural Language

Image Processing

Time Series

Social Sciences

Complex Networks

Computer Networks

Data SEs

Public Doamins

Complementary Collections

24
caesar0301
13
Gene De Lisa

Nur ein Gedanke: 

9
Jason S

Google Fusion Tables hat einige.

http://tables.googlelabs.com/

3
Carter Medlin

Für die Webserver-Protokolle können Sie sie immer für das gewünschte Format generieren. Wenn Sie Code dagegen testen möchten, muss er an die Felder angepasst werden, die Sie speichern/analysieren möchten.

Für die Datensätze, die für das Benchmarking der Datenbankleistung verwendet werden, möchten Sie wahrscheinlich ein Tool suchen, das Daten für Sie generieren kann. Red Gate hat eine großartige für nicht zu viel Geld. 

3
kemiller2002

Datensätze verfügbar hier auch.

1
viper

http://Quandl.com hat über 10 Millionen Datensätze aus dem gesamten Internet. Das Tolle an dieser Ressource ist, dass sie eine einzige Möglichkeit bietet, auf alle Daten zuzugreifen. Die Site verfügt über ein kostenloses Excel-Plug-In oder es gibt Bibliotheken in R, Python, Ruby usw.

1
Brian Risk

Kaggle.com hat häufig Probleme beim Datamining. Die Datensätze decken ein breites Spektrum von Bereichen ab: Daten des Gesundheitsdienstleisters, um Informationen zur Historie des Kredits zu erhalten. Vielleicht gibt es etwas, wonach Sie suchen.

1
Rishi

Möglicherweise werden einige Datenbanken als Trainingssätze für Gesichtserkennungsalgorithmen verwendet: face-rec.org

0
Mihai Todor

Nun, dieser ist neu und dahinter steht eine Herausforderung:

Million Song-Dataset-Herausforderung

0
zeroDivisible
0
alex

Ich bin überrascht, dass niemand Google N-Grams erwähnt hat. Mehr zu N-Grams unter http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html

0