Dove posso trovare grandi dataset aperti al pubblico?
Cercherò di limitare le mie risposte ai set di dati di dimensioni superiori a 1 GB, e di ordinare le mie risposte in base alla dimensione del set di dati.
Più di 1 TB
- Il progetto 1000 Genomi rende disponibili 260 TB di dati sul genoma umano [13]
- L'Internet Archive sta rendendo disponibile un web crawl di 80 TB per la ricerca [17]
- La conferenza TREC ha reso disponibile il dataset ClueWeb09 [3] qualche anno fa. Dovrai firmare un accordo e pagare una tassa non banale (fino a 610 dollari) per coprire il trasferimento dei dati. I dati sono circa 5 TB compressi.
- ClueWeb12 [21] è ora disponibile, così come le annotazioni Freebase, FACC1 [22]
- CNetS all'Indiana University rende disponibile un dataset di 2,5 TB di click [19]
- ICWSM ha reso disponibile un grande corpus di blog post per la loro conferenza del 2011 [2]. Dovrai registrarti (un modulo reale, non un modulo online), ma è gratuito. È circa 2,1 TB compresso.
- Il set di dati Yahoo News Feed è 1,5 TB compresso, 13,5 TB non compresso
- Il Proteome Commons rende disponibili diversi grandi set di dati. Il più grande, il Personal Genome Project [11], ha una dimensione di 1,1 TB. Ce ne sono diversi altri di oltre 100 GB.
Più di 1 GB
- Il Reference Energy Disaggregation Data Set [12] ha dati sull'uso dell'energia domestica; è circa 500 GB compressi.
- Il dataset Tiny Images [10] ha 227 GB di dati di immagini e 57 GB di metadati.
- Il dataset ImageNet [18] è piuttosto grande.
- Il dataset MOBIO [14] è di circa 135 GB di dati video e audio
- Il programma Yahoo! Webscope [7] mette a disposizione dei ricercatori accademici diversi dataset di oltre 1 GB, tra cui un set di dati di 83 GB di caratteristiche di immagini Flickr e il dataset utilizzato per la KDD Cup 2011 [9], da Yahoo! Music, che è un po' più di 1 GB.
- Google ha fatto un dataset che mappa le parole agli URL di Wikipedia (cioè, concetti) [15]. Il dataset è di circa 10 GB compressi.
- Yandex ha recentemente reso disponibile un dataset di click di ricerca web molto grande [1]. Dovrai registrarti online al concorso per scaricarlo. Sono circa 5,6 GB compressi.
- Freebase rende disponibili regolarmente i dump dei dati [5]. Il più grande è il loro dump Quad [4], che è circa 3,6 GB compresso.
- L'Open American National Corpus [8] è circa 4,8 GB non compresso.
- Wikipedia ha reso disponibile un dataset contenente informazioni sulle modifiche per una recente competizione Kaggle [6]. Il dataset di allenamento è di circa 2.0 GB non compresso.
- La Research and Innovative Technology Administration (RITA) ha reso disponibile un dataset sulle prestazioni di puntualità dei voli nazionali operati da grandi vettori. The ASA compressed this dataset and makes it available for download [16].
- The wiki-links data made available by Google is about 1.75 GB total [20].
[1] http://imat-relpred.yandex.ru/en/datasets
[2] http://www.icwsm.org/2011/data.php
[3] http://lemurproject.org/clueweb09.php/
[4] http://wiki.freebase.com/wiki/Data_dumps
[5] http://download.freebase.com/datadumps/latest
[6] http://www.kaggle.com/c/wikichallenge/Data
[7] http://webscope.sandbox.yahoo.com/index.php
[8] http://americannationalcorpus.org/OANC/index.html
[9] http://kddcup.yahoo.com/datasets.php
[10] http://horatio.cs.nyu.edu/mit/tiny/data/index.html
[11] https://proteomecommons.org/dataset.jsp?i=72639
[12] http://redd.csail.mit.edu/
[13] http://www.1000genomes.org/ftpsearch/
[14] https://www.idiap.ch/dataset/mobio
[15] http://www-nlp.stanford.edu/pubs/crosswikis-data.tar.bz2/
[16] http://stat-computing.org/dataexpo/2009/the-data.html
[17] http://blog.archive.org/2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/
[18] http://www.image-net.org/index
[19] http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset
[20] wiki-links - Wikipedia Links Data - Google Project Hosting
[21] The ClueWeb12 Dataset
[22] ClueWeb12 Related Data:
Articoli simili
- Come maladattativo sognatore ad occhi aperti, su cosa sogni ad occhi aperti?
- Come coinvolgere il tuo pubblico quando consegni il tuo messaggio in pubblico
- Perché le persone cambiano i loro account Instagram da pubblico a privato e poi tornano di nuovo a pubblico frequentemente?
- Come implementare il riconoscimento dell'attività umana nel deep learning e indicarmi eventuali dataset disponibili pubblicamente