Bonjour.
Est-ce que quelqu’un sait si c’est possible de faire ça chez OVH ?
La dernière fois que j’ai testé (ça commence à remonter…) le DNSSEC n’était possible que si c’est eux qui géraient les DNS
Salut,
oui avec OVH c’est tout à fait possible (c’est d’ailleurs mon cas).
Je ne sais cependant pas si le problème existe toujours mais j’avais du faire une manip étrange dans la zone gérée par eux malgré le fait qu’elle soit inactive. Mais dans tous les cas ça marche et c’est possible via tout bureau d’enregistrement sérieux.
L’auteur dit qu’il a 4000 requêtes par minute et annonce “c’est de la faute à l’IA” sans jamais prouver que ce sont bien des bots d’IA à l’origine de ces requêtes (aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95…)
Et une attaque par déni de service distribué, ça n’a rien à voir avec du scraping.
On mélange les torchons et les serviettes… Mais comme il y a un ennemi commun (l’IA), ça a l’air de générer du buzz. Tant mieux pour dryusdan.
C’est justement là que le bat blesse, une IA est par essence, prévu pour piller des données quel que soit le moyen (faut bien l’entraîner), et si elle pille, on ne peut pas leur faire confiance sur le “digne de ce nom”.
https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/
Maintenant feel free hein, quel sont les moyens que je peux mettre en oeuvre pour m’assurer que ce n’est pas de l’IA ? C’est vrai qu’il y a une énorme différence entre de l’IA et des scrappers peut vertueux (non).
Mais on va parler coïncidence hein (j’ai pas envie d’asseoir un éventuel argument d’autorité comme quoi des attaques DDoS j’en ai bouffé professionnellement à la pelle) ;)
Punaise, les coïncidences sont folles, mais aucune preuve, juste de curieuse coïncidence dont les schémas se répète partout et pas que sur mon infra.
Petit point quand même, un DDoS quel qu’il soit à pour unique objectif de dégommer un site. Soi il arrête une fois le site down, soit il continue jusqu’à pourrir l’infra ou juste pendant X temps.
Ici, à l’instant où le 403 est apparut POUF plus de trafic suspect. Dès qu’il est impossible de lire le contenu, le scraping agressif s’arrête. C’est fou hein. Aucune recherche à mettre mal mon infra, à dégommer mon site principal ni même à le lire. Juste Forgejo. Pour du scraping c’est vachement bizarre de ne lire que la forge surtout chaque petit micro URL de la forge (pourtant j’en ai du site en place, et un paquet), et pour une attaque ça l’est encore plus. Au cas ou, un site down c’est, au mieux, un code 5XX, pas 403.
Si les IA étaient dignes de ce nom, elles respecteraient les robots.txt, scraperaient à un rythme décent et on aurait pas besoin d’avoir 15 000 articles qui expliquent comment les bloquer malgré leurs contournements des blocages, déjà…
Le simple fait que vous ayez fait un article « arrêtez de bloquer les IA » est déjà une preuve que les entreprises faisant de l’IA font n’importe quoi et ne sont donc pas dignes de confiance. Parce que si elles l’étaient, la question ne se poserait pas, le trafic serait passé inaperçu pour la plupart des gens.
Perso j’ai constaté la même chose que Dryusdan sur pas mal de mes infra… Si bien que j’ai du développer un outil pour bloquer tout ça.
Sinon concernant le reste :
“
aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95
” : si, on a plein d’exemples comme ça, mais en tant qu’adminsys c’est vrai qu’on passe pas notre temps à poster nos logs en ligne, mais il y a des bases de partages si besoin.“
une attaque par déni de service distribué, ça n’a rien à voir avec du scraping
” : Alors en fait si, de plus en plus d’ailleurs, par exemple j’ai eu le cas (moi aussi sur ma forge git, quel hasard) de crawlers IA qui venaient sur mon infra avec pas moins de 70 000 IP différentes qui faisaient chacune 1 ou 2 requêtes seulement. Surement pour ne pas être banni facilement (c’est loupé eheh).“
Mais comme il y a un ennemi commun (l’IA)
” : Non, l’ennemi commun ce sont les humains qui font de l’IA absurde (et capitaliste à outrance) comme ça et pourrissent le web, ces nécromanciens du rêve sont juste néfastes et seront bloqués et ridiculisés autant que possible.Même constat que Dryusdan sur mon infra :
J’ai eu plus de chances avec moins de requêtes par minute mais poste filtrage par user-agent (qui date de plusieurs semaines), quasi 100% des IP appartiennent à Alibaba.