Actualités

Anthropic est accusé de contourner les protocoles anti-scraping

29 juillet 2024Dernière mise à jour: 29 juillet 2024

2 minutes de lecture

La start-up d’intelligence artificielle Anthropic a récemment été la cible de nombreuses accusations venant de certains sites Internet. C’est notamment le cas de Freelanceur et d’iFixit qui ont déclaré que Claude, l’IA d’Anthropic, explorait agressivement leurs sites Web.

C’est quoi un scraping ?

Au préalable, il faut savoir que le scraping, ou web scraping, est la principale forme de data mining et d’extraction des données de sites web, via un script ou un programme. En d’autres termes, c’est une technique qui permet de lire de grands volumes de données sur des sites Internet et de les enregistrer localement.

Le robot d’Anthropic serait le scraper le plus agressif que Freelancer ait vu jusqu’à présent

D’une part, Freelancer a accusé Anthropic d’ignorer son protocole robots.txt « ne pas explorer » pour récupérer les données de ses sites Web. Le directeur général de Freelancer, Matt Barrie, a déclaré à The Information que le robot Claude d’Anthropic est « de loin le scraper le plus agressif ». Son site Web aurait reçu 3.5 millions de visites du crawler en l’espace de quatre heures.

Un crawler étant un robot d’indexation programmé pour une mission. Cette dernière consiste généralement à explorer automatiquement le Web pour collecter des contenus en fonction de critères bien définis.

Selon Matt Barrie, « il s’agit d’un scraping flagrant qui ralentit le site pour tous ceux qui y travaillent et affecte en fin de compte nos revenus ».

Les activités d’iFixit ont également été perturbées

D’autre part, le PDG d’iFixit, Kyle Wiens, a déclaré qu’Anthropic avait ignoré la politique du site Web interdisant l’utilisation de son contenu pour former des modèles d’IA. Selon lui, le bot a atteint les serveurs d’iFixit un million de fois en 24 heures. « Vous ne vous contentez pas de prendre notre contenu sans payer, vous bloquez nos ressources devops », lance-t-il à Anthropic. Les activités d’Anthropic auraient activé les alarmes de trafic élevé du site d’iFixit, réveillant les employés à 3 heures du matin.

Hey @AnthropicAI: I get you're hungry for data. Claude is really smart! But do you really need to hit our servers a million times in 24 hours?

You're not only taking our content without paying, you're tying up our devops resources. Not cool.
— Kyle Wiens (@kwiens) July 24, 2024

De son côté, Anthropic a déclaré à The Information que son robot avait respecté ce signal lorsque iFixit l’avait mis en œuvre. La start-up d’IA a déclaré qu’elle souhaitait « minimiser les perturbations » et qu’elle lancerait une enquête sur cette affaire.

En tout cas, le PDG d’iFixit a déclaré qu’il était ouvert à l’idée de discuter de la possibilité d’octroyer des licences de contenu à des fins commerciales à Anthropic.

29 juillet 2024Dernière mise à jour: 29 juillet 2024

2 minutes de lecture