Una función hash es un método de verificación de errores informáticos y organización de datos. Una gran cantidad de datos se manipula con un algoritmo matemático hasta que queda un pequeño número. Este número se utiliza como parte del catálogo que permite a una computadora encontrar esa información específica más adelante. Una buena función hash debería dar un resultado lo suficientemente pequeño para que sea fácil de usar, pero proporcionar un resultado único para cada conjunto de datos. Una función hash también proporciona una comprobación mínima de errores, ya que un dato corrupto y bueno debería producir resultados diferentes cuando se aplica el hash.
En una base de datos de computadora, generalmente es más fácil guardar ubicaciones con números en lugar de letras. Los dígitos tienen un número mucho mayor de métodos de organización y clasificación que las letras. Como resultado, los números a menudo se asignan a ubicaciones que contienen información variable dentro de la base de datos de una computadora. Estos números pueden ser arbitrarios o representativos de la información.
Los números arbitrarios se asignan simplemente según la posición en la memoria de la computadora o el orden en que se guardaron los datos. Guardar información de esta manera es común en bases de datos más pequeñas o en lugares en los que los datos no cambian con mucha frecuencia. Cuando se usa en otras áreas, volver a indexar la base de datos comienza a tomar más y más tiempo hasta que deja de ser eficiente.
La información representativa es donde entra en juego la función hash. La información, independientemente de lo que contenga, se traduce en números. Estos números se introducen en una construcción matemática que genera un número pequeño, normalmente un número entero. Si la función hash funciona correctamente, cada ubicación en esa parte de la base de datos tendrá su propio resultado único. Si dos o más ubicaciones tienen el mismo resultado, los programas pueden mostrar información incorrecta en función del hash duplicado.
También es posible utilizar una función hash para otras cosas. Se pueden dividir grandes cantidades de datos muy repetitivos en valores más pequeños. Esto es especialmente bueno cuando se buscan secuencias repetidas en grandes conjuntos de datos. Por ejemplo, el ácido desoxirribonucleico (ADN) está formado por una cantidad muy pequeña de componentes diferentes. Al desglosar esos componentes utilizando valores hash, los lugares donde dos cadenas de ADN son iguales y diferentes se vuelven muy claros, simplemente al comparar dos pequeñas columnas de números.
La última área en la que las funciones hash son útiles es la verificación de errores. Cuando la información se codifica inicialmente, el valor se registra como parte del índice de la ubicación. Si esa información se necesita más adelante, la información se recupera junto con ese valor. Si el programa repite la información y el resultado es diferente, entonces se produjo una corrupción en algún momento. Esta corrupción suele estar relacionada con los datos, ya que una corrupción de hash habría impedido la recuperación de los datos en primer lugar.