Back to Question Center
0

Semalt pateikia patarimų, kaip elgtis su robotais, vorų ir rowerów

1 answers:

Be sukūrimo paieškos draugiškų URL, .htaccess failas leidžia žiniatinklio valdytojams blokuoti konkrečius robotus, kad jie galėtų pasiekti savo svetainę. Vienas iš būdų blokuoti šiuos robotus yra per failą robots.txt. Tačiau Rossas Barberis "Semalt" klientų sėkmės vadybininkas teigia, kad jis matė tam tikrus skaitytuvus, ignoruodamas šį prašymą. Vienas iš geriausių būdų yra naudoti .htaccess failą, kad jie nebūtų indeksuojami jūsų turinio.

Kas yra šie robotai?

Tai yra programinės įrangos tipas, naudojamas paieškos sistemose, siekiant indeksavimo tikslais ištrinti naują turinį iš interneto.

Jie atlieka šias užduotis:

  • Apsilankykite tinklalapiuose, kuriuos susiejote
  • Patikrinkite savo klaidos HTML kodą
  • Jie sutaupo tuos tinklalapius, į kuriuos susiejate, ir pamatysite, su kokiais tinklalapiais susietas jūsų turinys
  • .
  • Jie indeksuoja jūsų turinį

Tačiau kai kurie robotai yra kenkėjiški ir ieškos jūsų svetainėje el. Pašto adresų ir formų, kurios dažniausiai naudojamos jums siųsti nepageidaujamus pranešimus ar šlamštas. Kiti netgi ieškote saugumo spragų savo kodekse .

Kas reikalinga norint blokuoti interneto skaitytuvus

?

Prieš naudodami .htaccess failą, turite patikrinti šiuos dalykus:

1. Jūsų svetainė turi būti paleista "Apache" serveryje. Šiuo metu net tie hostingowe įmonės, kurių pusė padoraus darbo vietoje, suteikia jums prieigą prie reikiamo failo.

2. Jūs turėtumėte turėti prieigą prie savo svetainės neapdorotų serverių žurnalų, kad galėtumėte rasti, kokie robotai lankėsi jūsų tinklalapiuose.

Atkreipkite dėmesį, kad jokiu būdu negalėsite blokuoti visų kenksmingų robočių, nebent juos blokuojate, net tuos, kuriuos manote naudinga. Nauji batai pasirodo kiekvieną dieną, o senesni - modifikuoti. Veiksmingiausias būdas yra užtikrinti jūsų kodą ir sunku, kad robotams būtų šlamštas.

identifikavimo robotai

Batai gali būti identifikuojami pagal IP adresą arba "User Agent String", kurį jie siunčia HTTP antraštėse. Pavyzdžiui, "Google" naudoja "Googlebot"

Jums gali reikėti šio sąrašo su 302 robotais, jei jau turite roboto vardą, kurį norite atidėti naudodami .htaccess

Kitas būdas yra atsisiųsti visus žurnalo failus iš serverio ir atidaryti juos naudojant teksto redaktorių. Jų vieta serveryje gali keistis priklausomai nuo jūsų serverio konfigūracijos. Jei jų negalite rasti, ieškokite pagalba iš jūsų žiniatinklio prieglobos.

Jei žinote, koks puslapis buvo aplankytas, ar apsilankymo laikas, lengviau patekti su nepageidaujamu botu. Galite ieškoti žurnalo failo naudodami šiuos parametrus .

Vieną kartą jūs pastebėjote, kuriuos robotus reikia blokuoti; tuomet tu gali juos įtraukti į .htaccess failą. Atminkite, kad užblokuojant robotą nepakanka sustabdyti. Tai gali grįžti su nauju IP ar pavadinimu.

Kaip juos užblokuoti

Atsisiųskite .htaccess failo kopiją. Padarykite atsargines kopijas, jei reikia.

1 metodas: blokavimas pagal IP

Šis kodo fragmentas blokuoja robotą naudojant IP adresą 197.0.0.1

Order Deny, Allow

paneigti nuo 197.0.0.1

Pirmoji eilutė reiškia, kad serveris blokuoja visus prašymus, atitinkančius jūsų nurodytus modelius, ir leis visiems kitiems .

Antroji eilutė nurodo serveriui išduoti 403: draudžiamą puslapį

2 metodas: naudotojo agentų blokavimas

Lengviausias būdas yra naudoti "Apache" perrašymo variklį

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} "BotUserAgent"

RewriteRule. - [F, L]

Pirmoji eilutė užtikrina, kad įjungtas perrašymo modulis. 2 eilutė yra sąlyga, į kurią taisyklė taikoma. 4 eilutėje "F" serveriui grąžinamas 403: draudžiama, o "L" reiškia, kad tai yra paskutinė taisyklė .

Tada įkeliate .htaccess failą į savo serverį ir perrašysite esamą. Su laiku turėsite atnaujinti boto IP adresą. Jei padarėte klaidą, tiesiog įkelkite atsarginę kopiją, kurią padarėte.

November 29, 2017
Semalt pateikia patarimų, kaip elgtis su robotais, vorų ir rowerów
Reply