¿Cómo funcionan los motores de búsqueda?

Los motores de búsqueda son básicamente algoritmos informáticos que ayudan a los usuarios a encontrar la información específica que buscan. Diferentes funcionan de diferentes formas específicas, pero todas utilizan los mismos principios básicos.

Lo primero que tienen que hacer los motores de búsqueda para funcionar es crear una base de datos local de, básicamente, Internet. Las primeras versiones solo indexaban palabras clave y títulos de páginas, pero las contemporáneas indexan todo el texto de cada página, así como una gran cantidad de otros datos sobre la relación de esa página con otras páginas y, en algunos casos, con todos o una parte de los medios. disponible en la página también. Los motores de búsqueda necesitan indexar toda esta información para poder realizar búsquedas en ella de manera eficiente, en lugar de tener que recorrer Internet cada vez que se envía una consulta de búsqueda.

Los motores de búsqueda crean estas bases de datos realizando rastreos periódicos de Internet. Las primeras versiones a menudo requerían que se les enviaran páginas para poder rastrearlas, pero ahora la mayoría de las páginas se encuentran siguiendo los enlaces de otras páginas. Lo que se llama robots o arañas, programas de computadora creados para indexar páginas, pasar de una página a otra, registrando todos los datos en la página y siguiendo cada enlace a nuevas páginas. Los diferentes motores de búsqueda actualizan sus índices a diferentes intervalos, dependiendo de la cantidad de arañas que se arrastran constantemente y de la rapidez con la que se arrastran, algunos se abren camino a través de Internet todos los días o dos, y otros solo realizan una actualización periódica cada semana o mes.

A medida que la araña recorre estas páginas, registra las palabras que encuentra en las páginas. Toma notas sobre cuántas veces aparece cada palabra, si las palabras están ponderadas de cierta manera, tal vez según el tamaño, la ubicación o el marcado HTML, y decide qué tan relevantes son las palabras en función de los enlaces que ingresan a la página, y en el contexto general de la página.

Los motores de búsqueda deben ponderar el valor de cada página y el valor de cada página para las palabras que aparecen en ella. Esta es la parte más complicada, pero también la más importante. En el nivel más simple, simplemente podría realizar un seguimiento de cada palabra en la página y registrar esa página como relevante para las búsquedas con esa palabra clave. Sin embargo, esto no sería de gran utilidad para la mayoría de los usuarios, ya que lo que se desea es la página más relevante para su consulta de búsqueda. Por tanto, diferentes motores presentan diferentes formas de ponderar la importancia.

Los algoritmos que utilizan varios motores de búsqueda están bien protegidos, para evitar que las personas creen páginas específicamente para obtener mejores clasificaciones, o al menos para limitar el grado en que pueden hacerlo. Esta diferencia es la razón por la que diferentes motores producen resultados diferentes para los mismos términos. Google podría determinar que una página es el mejor resultado para un término de búsqueda, y Ask podría determinar que la misma página ni siquiera está entre las 50 principales. Todo esto se basa simplemente en cómo valoran los enlaces entrantes y salientes, la densidad de las palabras clave que encuentran importante, cómo valoran la ubicación diferente de las palabras y cualquier número de factores menores.
La tendencia más reciente en los motores de búsqueda, y probablemente el futuro de la búsqueda en general, es pasar de las búsquedas basadas en palabras clave a las búsquedas basadas en conceptos. En esta nueva forma de búsqueda, en lugar de limitar la búsqueda a las palabras clave que ingresa el buscador, el programa trata de averiguar qué significan esas palabras clave, de modo que pueda sugerir páginas que pueden no incluir la palabra exacta, pero que, sin embargo, son de actualidad para el usuario. buscar. Este es todavía un campo en desarrollo, pero hasta ahora parece tener mucho potencial para hacer que las búsquedas sean más relevantes, haciendo de la web un lugar aún más fácil para encontrar exactamente lo que estás buscando.