il ya effectivement une « dissonance cognitive » entre ce qu’est réellement le low-tech et faire la promotion d’une cryptomonnaie (soi-disant liner et éthique). Heureusement les SEL n’ont pas attendu les techno-béats pour être inventés.
Par le biais de F-Droid, tu as le magasin d’app nommé “Neo Store”…
Par ce biais, la version Android de Freetube est installable sur les smartphones ad hoc ;)
J’ai eu plus de chances avec moins de requêtes par minute mais poste filtrage par user-agent (qui date de plusieurs semaines), quasi 100% des IP appartiennent à Alibaba.
Perso j’ai constaté la même chose que Dryusdan sur pas mal de mes infra… Si bien que j’ai du développer un outil pour bloquer tout ça.
Sinon concernant le reste :
“aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95” : si, on a plein d’exemples comme ça, mais en tant qu’adminsys c’est vrai qu’on passe pas notre temps à poster nos logs en ligne, mais il y a des bases de partages si besoin.
“une attaque par déni de service distribué, ça n’a rien à voir avec du scraping” : Alors en fait si, de plus en plus d’ailleurs, par exemple j’ai eu le cas (moi aussi sur ma forge git, quel hasard) de crawlers IA qui venaient sur mon infra avec pas moins de 70 000 IP différentes qui faisaient chacune 1 ou 2 requêtes seulement. Surement pour ne pas être banni facilement (c’est loupé eheh).
“Mais comme il y a un ennemi commun (l’IA)” : Non, l’ennemi commun ce sont les humains qui font de l’IA absurde (et capitaliste à outrance) comme ça et pourrissent le web, ces nécromanciens du rêve sont juste néfastes et seront bloqués et ridiculisés autant que possible.
Si les IA étaient dignes de ce nom, elles respecteraient les robots.txt, scraperaient à un rythme décent et on aurait pas besoin d’avoir 15 000 articles qui expliquent comment les bloquer malgré leurs contournements des blocages, déjà…
Le simple fait que vous ayez fait un article « arrêtez de bloquer les IA » est déjà une preuve que les entreprises faisant de l’IA font n’importe quoi et ne sont donc pas dignes de confiance. Parce que si elles l’étaient, la question ne se poserait pas, le trafic serait passé inaperçu pour la plupart des gens.
Aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95…
C’est justement là que le bat blesse, une IA est par essence, prévu pour piller des données quel que soit le moyen (faut bien l’entraîner), et si elle pille, on ne peut pas leur faire confiance sur le “digne de ce nom”.
Maintenant feel free hein, quel sont les moyens que je peux mettre en oeuvre pour m’assurer que ce n’est pas de l’IA ? C’est vrai qu’il y a une énorme différence entre de l’IA et des scrappers peut vertueux (non).
Mais on va parler coïncidence hein (j’ai pas envie d’asseoir un éventuel argument d’autorité comme quoi des attaques DDoS j’en ai bouffé professionnellement à la pelle) ;)
L’IA explose : le trafic non humain explose.
L’IA émerge en chine, le trafic chinois explose.
L’IA commence a être bloqué : le trafic “humain” suspect explose.
On découvre qu’entraîner toutes les IAs sur du code informatique permet d’avoir de meilleur résultat et BAM toutes les forges logicielles avec un peu de code se font tabasser.
Punaise, les coïncidences sont folles, mais aucune preuve, juste de curieuse coïncidence dont les schémas se répète partout et pas que sur mon infra.
Petit point quand même, un DDoS quel qu’il soit à pour unique objectif de dégommer un site. Soi il arrête une fois le site down, soit il continue jusqu’à pourrir l’infra ou juste pendant X temps.
Ici, à l’instant où le 403 est apparut POUF plus de trafic suspect. Dès qu’il est impossible de lire le contenu, le scraping agressif s’arrête. C’est fou hein. Aucune recherche à mettre mal mon infra, à dégommer mon site principal ni même à le lire. Juste Forgejo. Pour du scraping c’est vachement bizarre de ne lire que la forge surtout chaque petit micro URL de la forge (pourtant j’en ai du site en place, et un paquet), et pour une attaque ça l’est encore plus. Au cas ou, un site down c’est, au mieux, un code 5XX, pas 403.
L’auteur dit qu’il a 4000 requêtes par minute et annonce “c’est de la faute à l’IA” sans jamais prouver que ce sont bien des bots d’IA à l’origine de ces requêtes (aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95…)
Et une attaque par déni de service distribué, ça n’a rien à voir avec du scraping.
On mélange les torchons et les serviettes… Mais comme il y a un ennemi commun (l’IA), ça a l’air de générer du buzz. Tant mieux pour dryusdan.
Non, l’analogie de la bouteille d’eau est tout sauf parfaite.
Quand un producteur capte l’eau potable, celle-ci n’est plus disponible.
Quand une IA scrape une information, l’information reste là où elle est et elle est rendu disponible ailleurs.
Mais complètement d’accord. L’article original est apparu dans mon flux entre deux articles de blog sur “comment se protéger des scrappers IA qui ont foutu mon serveur par terre”.
Il est soit confondant de naïveté, soit complètement malhonnête. Ton analogie de l’eau en bouteille est parfaite.
une IA ne lit pas pour elle-même. Elle lit pour nous.
Elle ne lit pas “pour nous”, parce qu’il n’y a pas de “nous” monolithique.
Pour qu’il y ait un “nous” monolithique, il faudrait distinguer d’IA d’une part, et la “communauté humaine” d’autre part.
Or, l’IA est une technologie qui capte la valeur à un endroit et la redistribue à un autre endroit.
Elle le fait pour le compte de son concepteur, qui est dans la plupart des cas un acteur privé.
La vocation de cet acteur est de monnayer ce service rendu (qui est bien réel et parfois époustouflant, je te rejoins).
Cette monétisation implique des utilisateurs.
La valeur ajoutée produite par l’IA est partagée entre le concepteur (valeur économique ou financière) et les utilisateurs (valeur d’usage).
Cette asymétrie de nature entre les valeurs entraine une asymétrie entre les acteurs suivant que l’organisation de la société valorise davantage le capital ou le travail.
Cette asymétrie brise l’idée d’un “nous” monolithique. Et la technologie est à la fois le moyen et la finalité de cette asymétrie. Cf. Braverman par exemple.
Autrement dit, il n’y a pas un “nous monolithique”, mais des “concepteurs” et des “utilisateurs”. Ce ne sont pas les mêmes. Et entre eux, des rapports de forces qu’on appelle “le marché”, ainsi que des régulations ou des absences de régulation, notamment le droit d’auteur.
Une posture éthique passerait par questionner ces rapports de forces indépendamment de la technologie sous-jacente (ni avec elle, ni contre elle, comme c’est encore souvent le cas pour l’IA).
(Je peux paraître très critique, ça ne doit pas masquer que je trouve ton post très intéressant)
Kagi n’est étonnamment pas cité dans l’article, les résultats sont très pertinents et orientés “indieweb” une valeur oubliée depuis trop longtemps par Google
Par curiosité, pourquoi Korben bof ?
il ya effectivement une « dissonance cognitive » entre ce qu’est réellement le low-tech et faire la promotion d’une cryptomonnaie (soi-disant liner et éthique). Heureusement les SEL n’ont pas attendu les techno-béats pour être inventés.
https://fr.wikipedia.org/wiki/Low-tech
Par le biais de F-Droid, tu as le magasin d’app nommé “Neo Store”… Par ce biais, la version Android de Freetube est installable sur les smartphones ad hoc ;)
Merci pour ton retour ;)
Très clair et très intéressant, merci !
Voir la réponse d’un post-adolescent : https://www.journalduhacker.net/s/zcovzl/adolescence_et_num_rique_retour_dexp
Même constat que Dryusdan sur mon infra :
J’ai eu plus de chances avec moins de requêtes par minute mais poste filtrage par user-agent (qui date de plusieurs semaines), quasi 100% des IP appartiennent à Alibaba.
Perso j’ai constaté la même chose que Dryusdan sur pas mal de mes infra… Si bien que j’ai du développer un outil pour bloquer tout ça.
Sinon concernant le reste :
“
aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95
” : si, on a plein d’exemples comme ça, mais en tant qu’adminsys c’est vrai qu’on passe pas notre temps à poster nos logs en ligne, mais il y a des bases de partages si besoin.“
une attaque par déni de service distribué, ça n’a rien à voir avec du scraping
” : Alors en fait si, de plus en plus d’ailleurs, par exemple j’ai eu le cas (moi aussi sur ma forge git, quel hasard) de crawlers IA qui venaient sur mon infra avec pas moins de 70 000 IP différentes qui faisaient chacune 1 ou 2 requêtes seulement. Surement pour ne pas être banni facilement (c’est loupé eheh).“
Mais comme il y a un ennemi commun (l’IA)
” : Non, l’ennemi commun ce sont les humains qui font de l’IA absurde (et capitaliste à outrance) comme ça et pourrissent le web, ces nécromanciens du rêve sont juste néfastes et seront bloqués et ridiculisés autant que possible.Si les IA étaient dignes de ce nom, elles respecteraient les robots.txt, scraperaient à un rythme décent et on aurait pas besoin d’avoir 15 000 articles qui expliquent comment les bloquer malgré leurs contournements des blocages, déjà…
Le simple fait que vous ayez fait un article « arrêtez de bloquer les IA » est déjà une preuve que les entreprises faisant de l’IA font n’importe quoi et ne sont donc pas dignes de confiance. Parce que si elles l’étaient, la question ne se poserait pas, le trafic serait passé inaperçu pour la plupart des gens.
C’est justement là que le bat blesse, une IA est par essence, prévu pour piller des données quel que soit le moyen (faut bien l’entraîner), et si elle pille, on ne peut pas leur faire confiance sur le “digne de ce nom”.
https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/
Maintenant feel free hein, quel sont les moyens que je peux mettre en oeuvre pour m’assurer que ce n’est pas de l’IA ? C’est vrai qu’il y a une énorme différence entre de l’IA et des scrappers peut vertueux (non).
Mais on va parler coïncidence hein (j’ai pas envie d’asseoir un éventuel argument d’autorité comme quoi des attaques DDoS j’en ai bouffé professionnellement à la pelle) ;)
Punaise, les coïncidences sont folles, mais aucune preuve, juste de curieuse coïncidence dont les schémas se répète partout et pas que sur mon infra.
Petit point quand même, un DDoS quel qu’il soit à pour unique objectif de dégommer un site. Soi il arrête une fois le site down, soit il continue jusqu’à pourrir l’infra ou juste pendant X temps.
Ici, à l’instant où le 403 est apparut POUF plus de trafic suspect. Dès qu’il est impossible de lire le contenu, le scraping agressif s’arrête. C’est fou hein. Aucune recherche à mettre mal mon infra, à dégommer mon site principal ni même à le lire. Juste Forgejo. Pour du scraping c’est vachement bizarre de ne lire que la forge surtout chaque petit micro URL de la forge (pourtant j’en ai du site en place, et un paquet), et pour une attaque ça l’est encore plus. Au cas ou, un site down c’est, au mieux, un code 5XX, pas 403.
L’auteur dit qu’il a 4000 requêtes par minute et annonce “c’est de la faute à l’IA” sans jamais prouver que ce sont bien des bots d’IA à l’origine de ces requêtes (aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95…)
Et une attaque par déni de service distribué, ça n’a rien à voir avec du scraping.
On mélange les torchons et les serviettes… Mais comme il y a un ennemi commun (l’IA), ça a l’air de générer du buzz. Tant mieux pour dryusdan.
Non, l’analogie de la bouteille d’eau est tout sauf parfaite.
Quand un producteur capte l’eau potable, celle-ci n’est plus disponible. Quand une IA scrape une information, l’information reste là où elle est et elle est rendu disponible ailleurs.
URL corrigée : https://www.citizenz.info/article/virtmanager-vs-virtualbox-une-belle-surprise
Il y a une coquille dans le lien, il y a un slash en trop au début
Mais complètement d’accord. L’article original est apparu dans mon flux entre deux articles de blog sur “comment se protéger des scrappers IA qui ont foutu mon serveur par terre”.
Il est soit confondant de naïveté, soit complètement malhonnête. Ton analogie de l’eau en bouteille est parfaite.
cf. également ici
Elle ne lit pas “pour nous”, parce qu’il n’y a pas de “nous” monolithique.
Pour qu’il y ait un “nous” monolithique, il faudrait distinguer d’IA d’une part, et la “communauté humaine” d’autre part.
Or, l’IA est une technologie qui capte la valeur à un endroit et la redistribue à un autre endroit.
Elle le fait pour le compte de son concepteur, qui est dans la plupart des cas un acteur privé.
La vocation de cet acteur est de monnayer ce service rendu (qui est bien réel et parfois époustouflant, je te rejoins).
Cette monétisation implique des utilisateurs.
La valeur ajoutée produite par l’IA est partagée entre le concepteur (valeur économique ou financière) et les utilisateurs (valeur d’usage).
Cette asymétrie de nature entre les valeurs entraine une asymétrie entre les acteurs suivant que l’organisation de la société valorise davantage le capital ou le travail.
Cette asymétrie brise l’idée d’un “nous” monolithique. Et la technologie est à la fois le moyen et la finalité de cette asymétrie. Cf. Braverman par exemple.
Autrement dit, il n’y a pas un “nous monolithique”, mais des “concepteurs” et des “utilisateurs”. Ce ne sont pas les mêmes. Et entre eux, des rapports de forces qu’on appelle “le marché”, ainsi que des régulations ou des absences de régulation, notamment le droit d’auteur.
Une posture éthique passerait par questionner ces rapports de forces indépendamment de la technologie sous-jacente (ni avec elle, ni contre elle, comme c’est encore souvent le cas pour l’IA).
(Je peux paraître très critique, ça ne doit pas masquer que je trouve ton post très intéressant)
Très plaisant de voir les avantages concrets du libre pour des professions auxquels on ne s’attend pas : ostéopathe !
Kagi n’est étonnamment pas cité dans l’article, les résultats sont très pertinents et orientés “indieweb” une valeur oubliée depuis trop longtemps par Google
aaaargh mais c’est pour ça que le nom m’avait l’air familier xD