Discussione:
bot rompiscatole MJ12bot da 144.76.7.107
(troppo vecchio per rispondere)
Gabriele - onenet
2016-04-16 11:11:43 UTC
Permalink
Raw Message
Su mio sito in WordPress avevo notato spesso degli errori 404 causati da visite
a pagine con URL strani provenienti da questo:
MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+

È il bot di un motore di ricerca distribuito (così scrivono, tralasciando il
nome "ufologico"), che potrebbe anche essere un'idea interessante non fosse per
la rottura di scatole nel modo in cui scansiona.

Allora chiedo se avete notato la stessa cosa.
In particolare mi pare anomalo che cerchi URL relativi a sessioni del carrello
di un e-commerce; cioè non cerca le pagina normali, ma cose tipo:
http://SITO/ecommerce/carrello/?remove_item=28dd2c7955ce926456240b2ff0100bde&_wpnonce=XXXXX
Dove XXXXX varia ogni pochi secondi!

Per il momento il mio firewall lo sta fermando in base allo User Agent, anche
se ora bloccherò proprio l'IP (144.76.7.107), perché arrivato a oltre 2.000 hit
mi sono rotto.

Idee?

Gabriele
Alex
2016-04-16 16:28:46 UTC
Permalink
Raw Message
Post by Gabriele - onenet
Su mio sito in WordPress avevo notato spesso degli errori 404 causati da
MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+
MJ12bot è insistente (molto) ma non è pericoloso.
Rispetta il robots.txt, ne sono sicuro perché per un periodo l' avevo
bannato anche io per 'eccesso di insistenza' proprio con un file
robots.txt

-- robots.txt ---
User-agent: MJ12bot
Disallow: /

bye
--
Alex

--- news://freenews.netfront.net/ - complaints: ***@netfront.net ---
Gabriele - onenet
2016-04-16 16:35:16 UTC
Permalink
Raw Message
Post by Alex
Post by Gabriele - onenet
Su mio sito in WordPress avevo notato spesso degli errori 404 causati da
MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+
MJ12bot è insistente (molto) ma non è pericoloso.
Allora è programmato molto male (a pensare bene).
È l'unico crawler che i genera una valanga di errori 404, oltre alla frequenza
di accessi rispetto a qualsiasi altro motore di ricerca; la cosa che mi dà
fastidio infatti è il tipo di URL che cerca.
Post by Alex
Rispetta il robots.txt, ne sono sicuro perché per un periodo l' avevo bannato
anche io per 'eccesso di insistenza' proprio con un file
robots.txt
-- robots.txt ---
User-agent: MJ12bot
Disallow: /
Per ora lo blocco in altro modo, vedrò poi se avrò voglia di metterlo nel file
robots.

ciao

Gabriele

Loading...