I big data sono misurazioni di dati che sono diventati così grandi che i normali database non sono in grado di contenere e lavorare con l’enorme quantità di informazioni. I dati sono disponibili in tre dimensioni: piccola, media e grande; nessuna di queste misurazioni è rigorosa; invece, ognuno dipende più dalla facilità d’uso e dal tipo di macchina in grado di gestire le informazioni. Per i big data sono necessarie macchine speciali, molto più grandi e complesse di quelle utilizzate per i normali database. Questi tipi di dati si trovano in genere nelle agenzie governative e scientifiche, ma anche alcuni siti Web molto grandi contengono questa grande quantità di informazioni.
I dati sono disponibili in tre dimensioni standard, ma non rigorose. I piccoli dati sono in grado di adattarsi a un singolo computer o macchina, come un laptop. I dati medi sono in grado di adattarsi a un array di dischi e sono gestiti al meglio da un database. I database, non importa quanto grandi, non sono in grado di lavorare con i big data, e al loro posto si usano sistemi speciali. Sebbene non ci siano linee guida rigorose per cosa siano i big data, in genere inizia intorno al livello di terabyte (TB) e sale al livello di petabyte (PB).
Il tentativo di lavorare con i big data su un database non specializzato per questa quantità di dati causerà diversi problemi sostanziali. Il database non è in grado di gestire la quantità di informazioni, quindi alcuni dati devono essere cancellati. È come cercare di inserire 100 gigabyte (GB) su un computer con solo 50 GB di spazio su disco rigido; non si può fare. I dati rimasti saranno ingombranti sia da controllare che da gestire, perché qualsiasi funzione richiederebbe molto tempo per essere completata e il database deve essere chiuso a nuovi invii.
Sebbene sia possibile continuare ad acquistare macchine e aggiungere nuovi dati ai database, ciò crea il problema ingombrante. Questo perché il software di database è fatto per funzionare solo con dati medi. Set di dati più grandi portano a errori e problemi amministrativi, perché il software semplicemente non può spostare o lavorare con dati di grandi dimensioni senza incontrare problemi.
I big data non vengono rilevati dalla maggior parte delle organizzazioni o dei siti web. Le agenzie militari e di difesa utilizzano questa quantità di informazioni per creare modelli e archiviare i risultati dei test e molte grandi agenzie scientifiche hanno bisogno di queste macchine specializzate per ragioni simili. Alcuni siti Web molto grandi richiedono macchine dati di grandi dimensioni, ma i siti Web non sono così comuni come le agenzie in questo mercato. Queste organizzazioni devono conservare tutti i loro dati, perché aiutano ad analizzare meglio i dati futuri e fare previsioni.