¿Qué es Stop Word?

En aplicaciones informáticas y en línea, una palabra de parada es una palabra que se filtra durante el procesamiento de algún tipo de texto, como durante el inicio de una búsqueda en línea. Conocido como un componente del procesamiento del lenguaje natural o NLP, la idea detrás de este tipo de filtrado es ayudar a acelerar las búsquedas al omitir artículos de discurso comunes de la solicitud. En cambio, el motor de búsqueda usa un marcador simple para notar la presencia de la palabra en la cadena de texto, pero no evita que la presencia de ese marcador incluya esa página en los resultados de búsqueda.

Una forma de entender cómo las palabras vacías pueden complicar la función de los motores de búsqueda es considerar el hecho de que al realizar una búsqueda, el motor considerará cada palabra incluida en la solicitud de búsqueda enviada por el usuario. Como parte de esa consideración, el motor busca páginas que contengan cada palabra. Eso significa que si la solicitud de búsqueda contiene tres palabras, el motor realiza tres barridos de Internet y finalmente da prioridad a las páginas que incluyen las tres palabras.

Por ejemplo, una búsqueda como «la casa en la colina» requeriría que el motor hiciera búsquedas en cada palabra en la secuencia, y algunos incluso ejecutarían una búsqueda en la palabra de parada «la» dos veces. Esto requiere tiempo y recursos que podrían destinarse a ayudar en otras búsquedas de palabras clave que otros usuarios finales están realizando actualmente. Al usar marcadores para reemplazar «el» y «activado» durante la búsqueda, el motor puede dedicar menos recursos y aún así devolver resultados que tienen muchas probabilidades de satisfacer al usuario final.

Si bien a veces se hace referencia a la palabra de parada como una palabra venenosa, en realidad no hay nada particularmente malo en incluir artículos orales en el texto utilizado para realizar búsquedas. El uso de una palabra o palabras vacías como parte de la solicitud de búsqueda puede complicar el proceso de indexación del motor de búsqueda cuando se intenta recuperar datos que cumplen con los criterios de búsqueda. Aún así, es probable que el usuario final no vea mucha diferencia en la extracción de información que finalmente se devuelve.

No existe una lista de palabras de parada estricta y rápida que sea utilizada universalmente por todos los motores de búsqueda. De hecho, algunos motores de búsqueda no utilizan ningún tipo de lista de palabras vacías como parte de la tarea de procesamiento del lenguaje natural. Sin embargo, otros motores harán un amplio uso de la lista de palabras vacías como un medio para asignar recursos de una manera más eficiente, al mismo tiempo que devuelven resultados de motores de búsqueda que son precisos y probablemente muy apropiados para las solicitudes de búsqueda enviadas por cualquier persona que use un motor.