Un raspador de pantalla es un programa de computadora que recopila datos basados en caracteres de la salida de pantalla de otro programa. Los raspadores de pantalla pueden extraer los datos que buscan y presentarlos en un formato más rico, como gráficos o tablas, o simplemente indexar los datos para su almacenamiento. Hay muchos otros nombres para un raspador de pantalla, incluido el raspador de sitios web, minero de contenido, extractor de sitios web, extractor web, recolector de datos automatizado y raspador HTML.
Un raspador de pantalla buscará en el código de un sitio web y filtrará el código extraño que está en su lugar para proporcionar una presentación atractiva al navegador final. Dicho código es necesario para ver la página completa en su diseño previsto, pero un raspador simplemente busca datos útiles. Estos datos se recopilan y presentan como una base de datos simple, sin las campanas y silbidos del código HTML original proporcionado.
Un buen ejemplo de un raspador de pantalla en acción son las arañas de los motores de búsqueda. Estas arañas acceden a cientos de miles de sitios web, cada uno de los cuales contiene numerosas páginas. Los datos de palabras clave de estos sitios se recopilan e indexan y, finalmente, se presentan al usuario final como resultados del motor de búsqueda.
La mayoría de los raspadores de pantalla recorren la codificación HTML de un sitio web para obtener su información, pero también pueden buscar otros lenguajes de secuencias de comandos como JavaScript o PHP. Los datos extraídos se pueden presentar como HTML para que el usuario pueda acceder a ellos con su navegador web, o almacenarse como datos de texto a los que el usuario puede acceder sin conexión.
Las empresas utilizan raspadores de pantalla para extraer los datos de una variedad de sitios web relacionados con palabras clave con el fin de generar gráficos, tablas, hojas de cálculo y datos de comparación que se utilizarán en informes y presentaciones. El raspador de pantalla ahorra una cantidad extraordinaria de tiempo, ya que un empleado que realiza la misma tarea tendría que buscar sitios relevantes, hacer clic en enlaces y explorar cada sitio individualmente para encontrar y registrar los datos aplicables que necesita. También se puede usar un raspador de pantalla cuando la información se almacena en un sistema al que ya no se puede acceder debido a problemas de compatibilidad con hardware o software más nuevo.
Los raspadores de pantalla pueden ser tanto una bendición como una maldición para los propietarios de sitios y los internautas. Si bien brindan un servicio absolutamente funcional para empresas, motores de búsqueda y otros, un raspador de pantalla también se puede usar para fines menos que altruistas. Por ejemplo, las empresas o las personas que utilizan el correo no deseado como método publicitario pueden utilizar un raspador de pantalla para extraer direcciones de correo electrónico de sitios web.
Si bien un raspador de pantalla puede ser una herramienta útil, existe cierto debate entre la comunidad web sobre la legalidad y la ética al usarlos. Los problemas de derechos de autor se vuelven borrosos cuando un raspador de pantalla extrae el trabajo duro de alguien y lo presenta en otro formato para otro sitio web, y aquellos sitios que dependen de la publicidad para generar ingresos tienen problemas cuando el raspador de pantalla descarta sus anuncios. Como resultado, algunos propietarios de sitios web han comenzado a implementar herramientas que evitarán que sus sitios sean raspados.