Les données brutes, également appelées données sources ou données atomiques, sont des informations qui n’ont pas été traitées afin d’être affichées sous quelque forme que ce soit. La forme brute peut sembler très méconnaissable et être presque dénuée de sens sans traitement, mais elle peut également être sous une forme que certains peuvent interpréter, selon la situation. Ces données peuvent être traitées manuellement ou par une machine.
Dans certains cas, les données brutes peuvent n’être rien de plus qu’une série de nombres. Cependant, la façon dont ces nombres sont séquencés, et parfois même la façon dont ils sont espacés, peuvent être des informations très importantes. Un ordinateur peut interpréter ces informations et donner une lecture qui peut alors avoir un sens pour le lecteur.
Le code binaire est un bon exemple de données brutes. Pris isolément comme une impression, un code binaire fait très peu pour l’utilisateur de l’ordinateur – du moins la grande majorité des utilisateurs. En revanche, lorsqu’il est traité via un ordinateur, il fournit des informations plus compréhensibles. En fait, le code binaire est généralement le code source de tout ce qu’un utilisateur d’ordinateur voit.
Dans certains cas, ce type de données peut ne jamais être vu sous sa forme finale, en particulier par ceux qui travaillent dans les applications de saisie de données. Dans ces situations, l’utilisateur n’est responsable que de la saisie des informations et parfois, la personne qui saisit les données peut même ne pas savoir exactement ce qu’elle saisit ou pourquoi. Ceci est particulièrement utile lorsque la sécurité ou la confidentialité est importante, car cela permet de s’assurer qu’aucun travailleur n’insère des informations biaisées ou intentionnellement fausses dans le but de blesser ou de profiter à quelqu’un.
Par exemple, dans certaines applications médicales, il peut y avoir des réglementations très strictes concernant la confidentialité des patients, mais les données peuvent encore devoir être saisies dans une base de données. Pour éviter qu’un maximum de personnes n’identifient les patients, chacun peut se voir attribuer un numéro. Leurs conditions peuvent également se voir attribuer un numéro, ainsi que leurs options de traitement. Sans connaître la signification de ces chiffres, il n’y a aucun moyen d’identifier le patient ou l’affection. Ces informations d’identification peuvent n’être disponibles que pour une poignée de personnes.
Cet exemple est en fait assez inhabituel, car les informations sont rarement converties sous une forme considérée comme brute. Au lieu de cela, les données brutes sont généralement traitées pour les rendre plus raffinées. Cependant, il existe de nombreuses applications différentes où des données non traitées apparaissent, et les règles concernant ce qu’il faut en faire dépendent de la situation.