Web Screen Scraping: handige tips van Semalt

Tegenwoordig kunnen gegevens uw belangrijkste bezit worden. Als zodanig is het nooit een goed idee om het in handen te laten vallen van je concurrenten. Soms kan het echter een uitdaging zijn om dit te voorkomen vanwege schermschrapen. Dit is een techniek die al jaren wordt gebruikt om gegevens uit webpagina's te halen.

Deze methode levert een bedrijf twee grote problemen op. Allereerst kunnen de gegevens worden gebruikt om een voordeel te behalen ten opzichte van een bedrijf, bijvoorbeeld door prijzen te onderbieden en informatie over producten te verkrijgen. Als de techniek aanhoudend wordt gedaan, kan deze ook de prestaties van een website verminderen.

Over het algemeen is schermschrapen een concept dat enkele decennia geleden is ontwikkeld door vroege terminalemulatieprogramma's. Het is een programmatische techniek die informatie haalt uit schermen die in de eerste plaats zijn ontworpen voor weergave door mensen. Het programma doet zich voor als een mens en leest de gegevens, verzamelt waardevolle informatie en verwerkt deze voor opslag.

De techniek is in de loop der jaren aanzienlijk geƫvolueerd, vooral met de uitvinding van webcrawlers. Het evolueerde nog verder met de ontwikkeling van e-retail screen scraping, bijvoorbeeld prijsvergelijkingswebsites. Deze websites maken gebruik van programma's die regelmatig populaire e-retail bezoeken om de meest recente prijzen en informatie over de beschikbaarheid van een bepaald product of dienst te verkrijgen. Deze gegevens worden vervolgens opgeslagen in een database en gebruikt om vergelijkende beoordelingen te geven van het e-retaillandschap.

Concurrerende schermschrapen heeft verschillende negatieve gevolgen voor de IT-systemen van een bedrijf, omdat het slechts een ander voorbeeld is van ongewenst verkeer. Recente onderzoeken hebben aangetoond dat ten minste 61% van al het verkeer door bots wordt gegenereerd. Deze bots verbruiken essentiƫle bronnen en bandbreedte die bedoeld is voor echte internetgebruikers, wat kan leiden tot een hogere latentie voor echte klanten.

Schermschrapen is al lang aan de gang. Het is echter pas recentelijk dat de slachtoffers van dit gedrag beginnen te reageren. Sommigen hebben oneerlijke handelspraktijken en inbreuk op het auteursrecht beweerd, terwijl de bedrijven die het schrapen daarentegen verdedigen door vrijheid van informatie te claimen.

Veel website-eigenaren hebben hun toevlucht genomen tot het schrijven van een gebruiksbeleid op hun webpagina's dat agressief schrapen verbiedt. Helaas kunnen ze dit beleid niet afdwingen en daarom lijkt het probleem niet snel te verdwijnen.

Jaren geleden introduceerde eBay een API waarmee goede schrapers toegang hebben tot uw gegevens. Het houdt echter niet op tegen het kwaadwillig verzamelen van informatie die kan worden gebruikt voor concurrentievoordeel. De enige echte verdediging kan worden verkregen door gebruik te maken van technologie die niet-menselijke bezoekers op uw website kan blokkeren. Hierdoor hebben de echte gebruikers toegang tot uw website en wordt voorkomen dat de crawlers schade veroorzaken.

Andere effectieve manieren om schermschrapen tegen te gaan, zijn door het gebruik van technieken zoals IP-reputatie-intelligentie, vervalste IP-brondetectie, analyse van verzoek-responsgedrag, realtime beoordeling van bedreigingsniveaus en handhaving van geolocatie.