Captcha vs Spamplemousse = Hayek vs Galbraith
Par Antoine B. le mercredi 5 avril 2006, 01:57 - Lien permanent
Les blogs construits sous Dotclear, tels que celui-ci, mais également le Paxablog, Econoclaste, Notes d’un économiste, ou le blog de Laurent Guerby ont récemment été victimes d’une avalanche de commentaires indésirables, conviant le lecteur à visiter des sites dont l’adresse laissait penser qu’ils devaient être déconseillés aux mineurs et aux âmes sensibles. La communauté Dotclear a réagit, en proposant notamment deux outils antispams, nommés Captcha (Captcha est en fait un principe général récemment adapté pour dotclear) et Spamplemousse. La différence entre ces deux outils me rappelle les vieux débats en économie : Etat vs marché, décision centralisée vs décentralisée, planification vs incitations, bref, Galbraith vs Hayek. Devinez lequel est le plus efficace…
La logique du Spamplemousse est centralisatrice. L’idée est que l’on connaît les termes que sont susceptibles de contenir les spams indésirables. Les créateurs de cet outil ont donc établi une liste de termes interdits, scabreux pour l’essentiels. Dès qu’un message contient un terme interdit, il n’est pas publié, mais placé dans une sorte de purgatoire, duquel l’animateur du blog peut le sortir au besoin. Guerby, le dangereux financier anticapitaliste, a logiquement opté pour cet outil centralisé. Evidemment, en gros, ça marche. Les commentaires indésirables n’apparaissent plus sur son blog. Mais le système a un gros problème : comment une seule personne, en l’occurrence soit les créateurs de Spamplemousse soit ses utilisateurs (qui peuvent le personnaliser) , peut elle connaître le contenu exact de tous les commentaires indésirables potentiels ? Le risque est grand, dans ces conditions, de tomber dans un des deux travers suivants : soit réduire le nombre de mots interdits, au risque de laisser passer des spams, soit garder une liste copieusement fournie au risque d’empêcher les commentateurs honnêtes de publier leur contribution si celle-ci contient un des mots interdits. De toute façon, les spammeurs connaissant l’astuce, il ne leur faut pas beaucoup de temps pour modifier le contenu de leurs messages, en y glissant une faute de frappe ou des espaces entre les lettres, pour échapper à la censure.
L’excès de rigorisme a récemment embêté un lecteur de Guerby. Ce dernier ironise en accusant Spamplemousse d’être un antispam de droite, car il censure le terme ‘socialisées’. Il passe à côté du fait que le principal défaut de cet instrument, c’est précisément d’être basé sur une logique socialisante de planification centrale.
Captcha, utilisé sur l’ensemble des blogs de tooblog, est, pour sa part, basé sur une logique décentralisée. Le responsable du blog sait qu’il ne peut pas connaître à l’avance tous les termes contenus dans les spams ni ceux contenus dans les commentaires sérieux. La seule chose qu’il connaisse, c’est ce dicton cher aux économistes : « People respond to incentives ». Il se contente donc de se demander à quelles incitations répondent les commentateurs de leur blog, d’un côté, et les spammeurs de l’autre. Dans le cas des commentateurs sérieux, leur objectif est de prendre part à une discussion particulière. Ils accordent à leur participation à cette discussion particulière, avec ces interlocuteurs particuliers, une valeur supérieure à celle du temps qu’ils consacrent à la rédaction de leur commentaire. Peut-on en dire autant des spammeurs ? Certes non ! Le temps qu’ils ont consacré à la rédaction d’un spam a bien plus de valeur pour eux que la publication de ce spam dans un blog précis. Pourquoi, dans ces conditions, rédigent-ils alors ce spam ? Tout simplement parce qu’ils vont faire des économies d’échelle en postant le même spam dans un grand nombre de blogs différents. Toute l’astuce de Captcha est basée sur cette asymétrie. Il s’agit d’ajouter un petit quelque chose au coût que paye chaque commentateur pour publier un commentaire. En l’occurrence, il doit répondre à une petite question simple, qui change à chaque fois. Ce coût (la valeur de 10 secondes) est suffisamment faible pour que persiste, pour la plupart des commentateurs sérieux, un gain net positif à publier leur billet. A la marge, il y a bien quelques commentateurs, les moins motivés, pour qui ce léger sur coût va les inciter à ne pas publier. C’est ce qu’on appelle pompeusement la charge morte (p. 39 de ce pdf). Les personnes ainsi rebutées sont celles qui étaient les moins intéressées par la discussion, si un surcoût aussi modeste a pu les décourager. En revanche, ce surcoût est clairement prohibitif pour les spammeurs. Leur activité n’est rentable que s’ils publient un très grand nombre de spams. Ils ne peuvent donc se permettre d’encourir un tel surcoût pour chaque blog particulier. Résultat, depuis la mise en place de Captcha, je n’ai plus de spams, et je n’ai, au pire, perdu que quelques commentaires de gens qui n’étaient de toute façon pas très intéressés par la discussion.
Et pour finir, une petite devinette : combien pariez-vous que, pour se venger de ce billet ultraliéral et pour démontrer l’infériorité du marché par rapport à la planification, Guerby va inonder ce message de spams de sa composition ? ;-)


Commentaires
"Guerby, le dangereux financier anticapitaliste, a logiquement opté pour cet outil centralisé" arf :).
Je précise que spamplemousse censure plus mes propres commentaires que ce des autres (mais les systèmes centralisés sont inefficace c'est bien connu) d'ou ma haute estime pour spamplemousse, et que quand j'ai eu mes premiers spams j'ai cherché vite fait et j'ai pris le premier recommandé dans un forum soit spamplemousse.
Donc merci pour Captcha, je m'en vais de se pas l'installer après un comité démocratique avec vote à l'unanimité, ce même comité démocratique a d'ailleurs noté la propention à la désinformation des faits des ultra-contre-anti-capitalistes dans un communiqué rajeur :).
M-x spook rulez
csim MIT-LL explosion Clinton Reno Craig Livingstone AGT. AMME cryptanalysis eavesdropping enigma Pine Gap Ron Brown New World Order DES CNCIS
Pour le coup, c'est convaincant. Mais le captcha n'est efficace que contre les spams commerciaux, pas les spams ciblés et malveillants (à moins de changer régulièrement de questions-filtre), non?
Bien qu'étant un affreux zultralibéral hayékien ;-), j'utilise spamplemousse. Il ne pose que guère de problèmes puisque :
a) on peut choisir des termes interdits uniquement en anglais - ce qui vire les spams commerciaux courants (je suppose qu'on endure les mêmes) ;
b) les commentaires qui tombent sous le coup de la procédure de spamplemousse ne sont pas tout à fait effacés : ils restent en mémoire sous un onglet de dotclear jusqu'à qu'on les efface définitivement et délibéremment. Donc, il est possible de re-publier des commentaires qui étaient passés sous le coup de la procédure alors qu'ils étaient pertinents et/ou n'étaient pas des spams.
Ce qui fait que le système reste tout à fait honorable, efficace et sans trop de ratés ! Et puis, je l'avoue, je n'ai pas réussi à installer captcha :-D
Etienne : so, you don't allow an English speaker to talk about the economics of sex in you blog ! What a pity...
Pour le moment, mes formidaââbles lecteurs n'ont pas l'idée lumineuse d'écrire en anglais. Auquel cas, il faudrait bouleverser toutes mes sinistres habitudes.
Etienne, un hayekien ? Un vrai ? Quelle est ton opinion sur la propriété intellectuelle ?
Par contre au lieu de poser des questions bidons, ils auraient du utiliser le bon vieu recopiage de lettres comme l'utilisent beaucoup de sites au moins c'est universel. Parce que là, ça signifie que seuls les francophones ont le droit de poster des commentaires sur nos blogs et c'est bien dommage...
Bonjour,
> le bon vieu recopiage de lettres comme l'utilisent beaucoup de sites au moins c'est universel
Il n'y a pas de solution parfaite hélas. Le système de Capcha évoqué par Antoine posera en effet des problèmes aux lecteurs non francophones, de même qu'à ceux qui souffrent de handicap cognitif.
Le système des images et des lettres à recopier bloquera les utilisateurs non-voyants ou mal-voyants.
Amicalement,
Monique
Et au final, Bayes vaincra ! (Bayes dont les travaux sont à l'origine du filtre bayesien, qui permet de filtrer les messages en fonction de la probabilité qu'ils ont d'être du spam, et non pas en fonction de la présence de certaines chaînes de caractères, comme spamplemousse).
C'est un filtre bayesien qui filtre le Spam dans Thunderbird, le client email de la fondation Mozilla.
Boudiou !
Quel est la capitale de l'Italie ? Faut être fort en géo sur ce blog.
Tiens, et en math... (14+8 = 22).
moi malheureusement j'ai bine peur d'une chose:
étant donnée que spamplemousse et les autres ne sont en fait que des listes de question / réponses,on risque très très fortement de voir apparaitre bientot des robots posteurs comportant les listes mises à jour aussi régulierement que nos blogs !
et donc... :-\
... donc vive l'image bien caca à recopier, ca au moins c'est efficace.
quand à "la somme de", ca ca doit etre très facile à coder pour un robot !
d'ailleurs on remarquera qu'aucun site pro (les gros: google et autres géants) n'utilise un captcha ! lol
on n'y croise que du code image, normal.
Tiens, à l'usage, me voilà du côté des méchants étatistes (un comble pour un type qui fait de l'IO) !
En fait, spamplemousse est chez moi redoutablement efficace contre le spam des trackback, et je n'ai eu en un mois qu'un seul faux positif.
Je n'arrive cependant pas à télécharger le lien de l'installeur comme
c'est noté plus
read more from http://www.jordans.cc/