Hvordan blokkere tilgang til SeekportBot eller andre crawJeg klikket på en nettside

Mesteparten av tiden, når du trenger å blokkere tilgang SeekportBot eller andre crawl bots med et nettsted er årsakene enkle. Nettspideren gjør for mange tilganger på kort tid og ber om ressursene til webserveren, eller den kommer fra en søkemotor der du ikke vil at nettstedet ditt skal indekseres.

Det er veldig fordelaktig for et nettsted besøkt av crawJeg traff ham. Disse nett-edderkoppene er designet for å utforske, behandle og indeksere innholdet på nettsider i søkemotorer. Google og Bing bruker slike crawJeg traff ham. Det finnes imidlertid også søkemotorer som bruker roboter til å samle inn data fra nettsider. Seekport er en av disse søkemotorene, som bruker crawSeekportBot leren for indeksering av nettsider. Dessverre bruker den noen ganger det overdrevent og skaper unødvendig trafikk.

Hva er SeekportBot?

SeekportBot er en web crawler utviklet av selskapet Seekport, som er basert i Tyskland (men bruker IP-er fra flere land, inkludert Finland). Denne boten brukes til å gjennomsøke og indeksere nettsteder slik at de kan vises i søkemotorresultater. Seekport. En ikke-funksjonell søkemotor, så vidt jeg kan si. Det ga i hvert fall ingen resultater for meg for noen nøkkelsetninger.

SeekportBot bruksområder user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Hvordan blokkere tilgang til SeekportBot eller andre crawJeg klikket på en nettside

Hvis du har kommet til den konklusjonen at denne nettedderkoppen eller en annen, er det ikke nødvendig å skanne hele nettstedet ditt og lage unødvendig trafikk til webserveren, du har flere metoder for å blokkere tilgangen deres.

Brannmur på webservernivå

De er brannmurapplikasjoner open-source som kan installeres på operativsystemer Linux og kan konfigureres til å blokkere trafikk basert på flere kriterier. IP-adresse, plassering, porter, protokoller eller brukeragent.

APF (Advanced Policy Firewall) er en slik programvare der du kan blokkere uønskede roboter, på servernivå.

Fordi SeekportBot og andre webedderkopper bruker flere blokker med IP-er, er den mest effektive blokkeringsregelen basert på "user agent". Så hvis du vil blokkere tilgang SeekportBot ved hjelp av APF, alt du trenger å gjøre er å koble til webserveren via SSH, og legg til filterregelen i konfigurasjonsfilen.

1. Åpne konfigurasjonsfilen med nano (eller et annet forlag).

sudo nano /etc/apf/conf.apf

2. Se etter linjen som begynner med "IG_TCP_CPORTS” og legg til brukeragenten du vil blokkere på slutten av denne linjen, etterfulgt av et komma. For eksempel hvis du vil blokkere user agent "SeekportBot", skal linjen se slik ut:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Lagre filen og start APF-tjenesten på nytt.

sudo systemctl restart apf.service

«SeekportBot»-tilgang vil bli blokkert.

Filter web crawls ved hjelp av Cloudflare – Blokker tilgang til SeekportBot

Ved hjelp av Cloudflare virker det for meg den sikreste og mest praktiske metoden som du kan begrense tilgangen til noen roboter til et nettsted på forskjellige måter. Metoden brukte jeg også i saken SeekportBot å filtrere trafikk til en nettbutikk.

Forutsatt at du allerede har nettstedet lagt til Cloudflare og DNS-tjenestene er aktivert (det vil si at trafikken til nettstedet går gjennom Cloudflare), følg trinnene nedenfor:

1. Åpne Clouflare-kontoen din og gå til nettstedet du vil begrense tilgangen til.

2. Gå til: Security → WAF og legg til en ny regel. Create rule.

3. Velg et navn for den nye regelen, Field: User Agent - Operator: Contains - Value: SeekportBot (eller annet botnavn) - Choose action: Block - Deploy.

Slik blokkerer du SeekportBot-tilgang
Blokker tilgang til SeekportBot fra Cloudflare

På bare noen få sekunder, den nye regelen WAF (Web Application Firewall) det begynner å tre i kraft.

Brannmurhendelser i Cloudflare
Brannmurhendelser i Cloudflare

I teorien kan frekvensen som en webedderkopp får tilgang til et nettsted med, angis fra robots.txt, men... det er bare i teorien.

User-agent: SeekportBot
Crawl-delay: 4

Mange web crawlerii (unntatt Bing og Google) følger ikke disse reglene.

Avslutningsvis, hvis du identifiserer en web crawl som har overdreven tilgang til nettstedet ditt, er det best å blokkere tilgangen hans fullstendig. Selvfølgelig, hvis denne boten ikke er fra en søkemotor der du er interessert i å være tilstede.

Teknologiinteressert, jeg skriver med glede på StealthSettings.com siden 2006. Jeg har bred erfaring med operativsystemer: macOS, Windows og Linux, samt programmeringsspråk og bloggplattformer (WordPress) og for nettbutikker (WooCommerce, Magento, PrestaShop).

Hvordan » net Surfing » Hvordan blokkere tilgang til SeekportBot eller andre crawJeg klikket på en nettside
Legg igjen en kommentar