Sådan blokerer du adgang til SeekportBot eller andet crawJeg klikkede ind på en hjemmeside

Det meste af tiden, når du har brug for at blokere adgang SeekportBot eller andre crawl bots med en hjemmeside er årsagerne enkle. Webedderkoppen laver for mange adgange på kort tid og anmoder om ressourcerne på webserveren, eller den kommer fra en søgemaskine, hvor du ikke ønsker, at dit websted skal indekseres.

Det er meget fordelagtigt for en hjemmeside besøgt af crawJeg stødte ind i ham. Disse web-edderkopper er designet til at udforske, behandle og indeksere indholdet af websider i søgemaskiner. Google og Bing bruger sådanne crawJeg stødte ind i ham. Der er dog også søgemaskiner, der bruger robotter til at indsamle data fra websider. Seekport er en af ​​disse søgemaskiner, som bruger crawSeekportBot leren til indeksering af websider. Desværre bruger den nogle gange det overdrevent meget og skaber unødvendig trafik.

Hvad er SeekportBot?

SeekportBot er en web crawler udviklet af virksomheden Seekport, som er baseret i Tyskland (men bruger IP'er fra flere lande, herunder Finland). Denne bot bruges til at crawle og indeksere websteder, så de kan vises i søgemaskinens resultater. Seekport. En ikke-funktionel søgemaskine, så vidt jeg kan se. Det gav i hvert fald ingen resultater for mig for nogen nøglesætning.

SeekportBot Brug user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Sådan blokerer du adgang til SeekportBot eller andet crawJeg klikkede ind på en hjemmeside

Hvis du er kommet til den konklusion, at denne web-edderkop eller en anden, er det ikke nødvendigt at scanne hele dit websted og lave unødvendig trafik til webserveren, du har flere metoder, hvormed du kan blokere deres adgang.

Firewall på webserverniveau

De er firewall-applikationer open-source som kan installeres på operativsystemer Linux og kan konfigureres til at blokere trafik baseret på flere kriterier. IP-adresse, placering, porte, protokoller eller brugeragent.

APF (Advanced Policy Firewall) er sådan en software, hvorigennem du kan blokere uønskede bots på serverniveau.

Fordi SeekportBot og andre webspiders bruger flere blokke af IP'er, er den mest effektive blokeringsregel baseret på "user agent". Så hvis du vil blokere adgang SeekportBot ved hjælp af APF, alt du skal gøre er at oprette forbindelse til webserveren via SSH, og tilføj filterreglen i konfigurationsfilen.

1. Åbn konfigurationsfilen med nano (eller et andet forlag).

sudo nano /etc/apf/conf.apf

2. Se efter linjen, der starter med "IG_TCP_CPORTS” og tilføj den brugeragent du vil blokere i slutningen af ​​denne linje, efterfulgt af et komma. For eksempel hvis du vil blokere user agent "SeekportBot", skal linjen se sådan ud:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Gem filen og genstart APF-tjenesten.

sudo systemctl restart apf.service

"SeekportBot"-adgang vil blive blokeret.

Filter web crawls ved hjælp af Cloudflare – Bloker adgang til SeekportBot

Ved hjælp af Cloudflare forekommer det mig at være den sikreste og mest bekvemme metode, hvormed du kan begrænse nogle bots' adgang til et websted på forskellige måder. Metoden brugte jeg også i casen SeekportBot at filtrere trafik til en netbutik.

Forudsat at du allerede har hjemmesiden tilføjet til Cloudflare og DNS-tjenesterne er aktiveret (det vil sige trafikken til hjemmesiden går gennem Cloudflare), skal du følge trinene nedenfor:

1. Åbn din Clouflare-konto og gå til den hjemmeside, som du vil begrænse adgangen til.

2. Gå til: Security → WAF og tilføje en ny regel. Create rule.

3. Vælg et navn til den nye regel, Field: User Agent - Operator: Contains - Value: SeekportBot (eller andet botnavn) – Choose action: Block - Deploy.

Sådan blokerer du SeekportBot-adgang
Bloker adgang til SeekportBot fra Cloudflare

På bare et par sekunder, den nye regel WAF (Web Application Firewall) det begynder at træde i kraft.

Firewall-begivenheder i Cloudflare
Firewall-begivenheder i Cloudflare

I teorien kan frekvensen, hvormed en webedderkop tilgår et websted, indstilles fra robots.txt, men... det er kun i teorien.

User-agent: SeekportBot
Crawl-delay: 4

Mange web crawlerii (undtagen Bing og Google) følger ikke disse regler.

Som konklusion, hvis du identificerer en web crawHvis du har for meget adgang til dit websted, er det bedst at blokere hans adgang fuldstændigt. Selvfølgelig, hvis denne bot ikke er fra en søgemaskine, hvor du er interesseret i at være til stede.

Teknologientusiast, jeg skriver med glæde på StealthSettings.com siden 2006. Jeg har rig erfaring med operativsystemer: macOS, Windows og Linux, samt programmeringssprog og blogplatforme (WordPress) og til onlinebutikker (WooCommerce, Magento, PrestaShop).

Hvordan man » netto Surfing » Sådan blokerer du adgang til SeekportBot eller andet crawJeg klikkede ind på en hjemmeside
Efterlad en kommentar