Un sitio scraper es un sitio web que extrae contenido de otras fuentes y lo vuelve a publicar, normalmente sin atribución. Estos sitios se mantienen por una variedad de razones y son de gran preocupación para muchos productores de contenido legítimo en Internet, porque plantean una serie de problemas. La mayoría de los sitios de raspadores violan la ley de derechos de autor al reimprimir el contenido sin consentimiento y no acreditar al autor, y también causan estragos en los resultados de los motores de búsqueda y en la clasificación de los sitios, lo que puede dificultar que los usuarios de Internet encuentren los sitios que realmente quieren ver.
La característica clave de un sitio scraper es que utiliza medios automatizados para recolectar contenido de otros sitios. La práctica de recopilar contenido se conoce como «scraping» y se puede lograr de varias maneras, desde descargar sitios completos hasta extraer contenido de feeds generados en RSS, XML y Atom para beneficio de los lectores que desean suscribirse. a un sitio, en lugar de visitarlo constantemente para buscar material nuevo. Una vez raspado, el contenido se levanta literalmente y se instala en un nuevo sitio.
La mayoría de los sitios de scraper se mantienen con el propósito de generar ingresos publicitarios a través de anuncios vinculados con el sitio. La gente puede buscar algo inocentemente, aterrizar en el sitio de scraper y luego hacer clic en los anuncios por confusión. Los sitios scraper también se utilizan en la agricultura de enlaces, una práctica que implica el mantenimiento de varios sitios que se enlazan entre sí, lo que aumenta la clasificación de los motores de búsqueda.
Cuando se roba contenido, se frustra al creador original tanto porque viola la ley de derechos de autor como porque el sitio scraper puede privar de ingresos al propietario del contenido original. Muchos webmasters utilizan una variedad de técnicas en un intento de derrotar a los sitios scraper, y algunos han pedido que los motores de búsqueda y las empresas de publicidad actúen, pidiéndoles que eliminen los sitios scraper o los hagan menos rentables para que la práctica sea menos atractiva.
En los casos en los que un sitio scraper acredita al creador, esto también puede dañar al creador al hacer que parezca que su sitio está en un «vecindario malo», con una gran cantidad de enlaces spam en lugar de enlaces de sitios respetados. Como resultado, las clasificaciones en los motores de búsqueda pueden caer y el propietario del sitio puede no poder hacer nada al respecto, ya que los propietarios del sitio no pueden controlar quién se vincula a ellos.
Conseguir un sitio scraper para eliminar contenido protegido por derechos de autor puede resultar extremadamente complicado, ya que muchos de estos sitios utilizan capas de subterfugio para ocultar a sus propietarios. Algunos webmasters frustrados van directamente a la empresa que aloja el sitio scraper, citando violaciones de derechos de autor y solicitando la eliminación inmediata del contenido en disputa.
Técnicamente, los motores de búsqueda y los sitios de agregación de noticias también podrían considerarse sitios scraper. Sin embargo, dado que estos sitios se mantienen para el bien público y debido a que el uso de material se rige por las pautas de uso justo, estos sitios generalmente no se agrupan con sitios de raspado dañinos.