4 * (c) 2008-2011 Cedric Morin Yterium.net
9 if (!defined("_ECRIRE_INC_VERSION")) return;
10 if (!defined('_SPAM_URL_MAX_OCCURENCES')) define('_SPAM_URL_MAX_OCCURENCES',3);
11 if (!defined('_SPAM_ENCRYPT_NAME')) define('_SPAM_ENCRYPT_NAME',false);
14 * Lister les formulaires a prendre en charge contre le SPAM
15 * pour verifier le nobot et le jeton sur un formulaire, l'ajouter a cette liste
16 * par le pipeline nospam_lister_formulaires
19 function nospam_lister_formulaires() {
20 if (!isset($GLOBALS['formulaires_no_spam']))
21 $GLOBALS['formulaires_no_spam'] = array();
22 $formulaires = array_merge($GLOBALS['formulaires_no_spam'], array('inscription','forum', 'ecrire_auteur', 'signature', 'recommander','newsletter_subscribe','newsletter_unsubscribe'));
23 return pipeline('nospam_lister_formulaires', $formulaires);
27 * Ajouter le champ de formulaire 'nobot' au besoin
32 function nospam_recuperer_fond($flux) {
33 // determiner le nom du formulaire
34 $fond = strval($flux['args']['fond']);
35 if (false !== $pos = strpos($fond, 'formulaires/')) {
36 $form = substr($fond, $pos +
12);
37 if (in_array($form, nospam_lister_formulaires())) {
38 // on ajoute le champ 'nobot' si pas present dans le formulaire
39 nospam_inserer_nobot($flux['data']['texte']);
46 * Ajouter le champ de formulaire 'nobot' au besoin
51 function nospam_formulaire_fond($flux) {
52 // determiner le nom du formulaire
53 $form = $flux['args']['form'];
54 if (in_array($form, nospam_lister_formulaires())) {
55 // on ajoute le champ 'nobot' si pas present dans le formulaire
56 nospam_inserer_nobot($flux['data']);
62 * Inserer un champ nobot au hasard dans le form
63 * et crypter tous les name
64 * @param string $texte
66 function nospam_inserer_nobot(&$texte){
67 if ((false === strpos($texte, 'name="email_nobot"'))
68 AND (false !== $pos = strpos($texte, '</form>'))
70 // essayer de s'inserer au hasard entre 2 div/li du form
71 if (preg_match_all(",<(div|li)\b[^>]*class=['\"]editer[^>]*,ims",$texte,$m)
72 AND $i = rand(0,count($m[0])-1)
73 AND $p = strpos($texte,$m[0][$i])){
74 $nobot = recuperer_fond("inclure/nobot", array('email_nobot' => '','div'=>$m[1][$i]));
75 $texte = substr_replace($texte, $nobot, $p, 0);
77 // et sinon a la fin juste avant la(les) balise(s) </form>
79 $nobot = recuperer_fond("inclure/nobot", array('email_nobot' => ''));
80 $texte = str_replace('</form>', $nobot . '</form>', $texte);
83 if (_SPAM_ENCRYPT_NAME
){
84 // recuperer toutes les balises input, textarea, select
85 $balises = array_merge(extraire_balises($texte,'input'));
86 foreach($balises as $k=>$b){
87 if (in_array(extraire_attribut($b,"type"),array("hidden","file")))
90 $balises = array_merge($balises,
91 extraire_balises($texte,'textarea'),
92 extraire_balises($texte,'select'));
95 if (preg_match(",<input type='hidden' name='_jeton' value='([^>]*)' />,Uims",$texte,$m))
98 foreach($balises as $k=>$b){
99 if ($name = extraire_attribut($b,"name")
100 AND strncmp($name,"session_",8)!==0){
101 // cas des truc[chose] : on ne brouille que truc
102 $crypted_name = explode("[",$name);
103 $crypted_name[0] = nospam_name_encode($crypted_name[0],$key);
104 $crypted_name = implode("[",$crypted_name);
105 $b_e = inserer_attribut($b,"name",$crypted_name);
106 $texte = str_replace($b,$b_e,$texte);
112 function nospam_name_encode($name,$key=""){
113 static $private_key=array();
114 static $encoded=array();
115 if (isset($encoded[$key][$name]))
116 return $encoded[$key][$name];
117 if (!$name) return $name;
118 if (!isset($private_key[$key])){
119 $private_key[$key] = nospam_private_key($key);
120 if (!function_exists('_xor'))
121 include_spip("inc/filtres");
123 $cname = _xor("xx_$name",$key);
124 $cname = base64_encode($cname);
125 $cname = "x_".rtrim(strtr(base64_encode($cname), '+/', '-_'), '=');
126 return $encoded[$key][$name] = $cname;
129 function nospam_name_decode($name,$key=""){
130 static $private_key=array();
131 static $decoded=array();
132 if (isset($decoded[$key][$name]))
133 return $decoded[$key][$name];
134 if (!$name) return $name;
135 if (strncmp($name,"x_",2)!==0) return $name;
136 if (!isset($private_key[$key])){
137 $private_key[$key] = nospam_private_key($key);
138 if (!function_exists('_xor'))
139 include_spip("inc/filtres");
141 $cname = substr($name,2);
142 $cname = base64_decode(str_pad(strtr($cname, '-_', '+/'), strlen($cname) %
4, '=', STR_PAD_RIGHT
));
143 $cname = base64_decode($cname);
144 $cname = _xor($cname,$key);
145 if (strncmp($cname,"xx_",3)!==0) return $name;
146 return $decoded[$key][$name] = substr($cname,3);
149 function nospam_private_key($key){
150 $private_key = $key . __FILE__
;
151 if (function_exists('sha1'))
152 $private_key = sha1($private_key);
154 $private_key = md5($private_key);
155 $private_key = pack("H*", $private_key);
161 * Ajouter un jeton temporaire lie a l'heure et a l'IP pour limiter la reutilisation possible du formulaire
166 function nospam_formulaire_charger($flux) {
167 $form = $flux['args']['form'];
168 if (in_array($form, nospam_lister_formulaires())
170 AND is_array($flux['data'])
172 include_spip("inc/nospam");
173 $jeton = creer_jeton($form);
174 if (!isset($flux['data']['_hidden'])) {
175 $flux['data']['_hidden'] = "";
177 $flux['data']['_hidden'] .= "<input type='hidden' name='_jeton' value='$jeton' />";
179 if (_SPAM_ENCRYPT_NAME
){
180 $flux['data']['_hidden'] .= "<input type='hidden' name='_encrypt' value='1' />";
181 // recuperer les autosave encryptes si possible
182 if (is_array($flux['data'])
183 AND isset($flux['data']['_autosave_id'])
184 AND $cle_autosave = $flux['data']['_autosave_id']
185 AND include_spip("inc/cvt_autosave")
186 AND function_exists("autosave_clean_value")){
188 $je_suis_poste = $flux['args']['je_suis_poste'];
190 $cle_autosave = serialize($cle_autosave);
191 $cle_autosave = $form."_".md5($cle_autosave);
193 // si on a un backup en session et qu'on est au premier chargement, non poste
194 // on restitue les donnees
195 if (isset($GLOBALS['visiteur_session']['session_autosave_'.$cle_autosave])
196 AND !$je_suis_poste) {
197 parse_str($GLOBALS['visiteur_session']['session_autosave_'.$cle_autosave], $vars);
198 if (isset($vars['_jeton'])
199 AND $key = $vars['_jeton']){
200 foreach ($vars as $name=>$val) {
201 if (($dname = nospam_name_decode($name,$key))!==$name
202 AND isset($flux['data'][$dname]))
203 $flux['data'][$dname] = (is_string($val)?
autosave_clean_value($val):array_map('autosave_clean_value',$val));
214 * Verifier le jeton temporaire lie a l'heure et a l'IP pour limiter la reutilisation possible du formulaire
219 function nospam_formulaire_verifier($flux) {
220 static $deja = false;
221 $form = $flux['args']['form'];
222 if (in_array($form, nospam_lister_formulaires())) {
223 include_spip("inc/nospam");
224 $jeton = _request('_jeton');
225 // y a-t-il des names encryptes a decrypter ?
226 // si oui on les decrypte puis on relance la verif complete
227 // attention, du coup verifier() est appele 2 fois dans ce cas (peut poser probleme ?)
228 // donc on repasse ici une deuxieme fois, et il ne faut pas relancer le decryptage
229 if (_request('_encrypt') AND !$deja){
231 $re_verifier = false;
232 foreach($_POST as $k=>$v){
233 $kd = nospam_name_decode($k,$jeton);
239 // si on a decode des champs, il faut relancer toute la chaine de verification et sortir
241 $verifier = charger_fonction("verifier","formulaires/$form/",true);
242 $flux['data'] = pipeline(
243 'formulaire_verifier',
245 'args'=>array('form'=>$form,'args'=>$flux['args']['args']),
246 'data'=>$verifier?
call_user_func_array($verifier,$flux['args']['args']):array())
252 // si l'encrypt a ete active depuis l'affichage initial de ce form, on rebalance l'erreur technique
253 // pour reforcer un POST
254 if (_SPAM_ENCRYPT_NAME
AND !_request('_encrypt')){
255 spip_log('SPAM_ENCRYPT_NAME active mais _encrypt manquant','nospam');
256 $flux['data']['message_erreur'] = _T('nospam:erreur_jeton');
258 // le jeton prend en compte l'heure et l'ip de l'internaute
259 elseif (_request('nobot') // trop facile !
260 OR _request('email_nobot')
261 OR (!verifier_jeton($jeton, $form))
263 if (_request('email_nobot'))
264 spip_log('email_nobot rempli : '._request('email_nobot'),'nospam');
265 if (_request('nobot'))
266 spip_log('nobot rempli : '._request('email_nobot'),'nospam');
267 #spip_log('pas de jeton pour '.var_export($flux,true),'nospam');
268 $flux['data']['message_erreur'] .= _T('nospam:erreur_jeton');
269 if ($form == 'forum')
270 unset($flux['data']['previsu']);
273 // pas la peine de filtrer les contenus postés par un admin
274 if (!isset($GLOBALS['visiteur_session']['statut']) OR $GLOBALS['visiteur_session']['statut'] != '0minirezo') {
275 if ($verifier_formulaire = charger_fonction("verifier_formulaire_$form", "nospam", true)) {
276 $flux = $verifier_formulaire($flux);
277 // recuperation de la liste des IPs blacklist/greylist
278 // async si on renvoie la previsu ou si erreur
280 if (count($flux['data']))
282 nospam_update_ip_list($async);
290 * Au moment de decider du statut d'un forum,
291 * quelques verifications et une moderation si necessaire !
296 function nospam_pre_edition($flux) {
297 if ($flux['args']['table'] == 'spip_forum'
298 AND $flux['args']['action'] == 'instituer'
301 // ne pas publier automatiquement certains messages suspects ...
302 // sauf si le posteur a de toute facon le pouvoir de moderer et de se publier
303 include_spip('inc/autoriser');
304 if (in_array($flux['data']['statut'],array('prop','publie'))
305 AND (!isset($GLOBALS['visiteur_session']['statut']) OR !autoriser('modererforum'))
307 // verifier le status de cette IP
308 nospam_check_ip_status($GLOBALS['ip']);
310 $email = strlen($flux['data']['email_auteur']) ?
" OR email_auteur=" . sql_quote($flux['data']['email_auteur']) : "";
311 $spammeur_connu = (!isset($GLOBALS['visiteur_session']['statut'])
313 isset($GLOBALS['ip_greylist'][$GLOBALS['ip']])
314 OR isset($GLOBALS['ip_blacklist'][$GLOBALS['ip']])
315 OR sql_countsel('spip_forum', '(ip=' . sql_quote($GLOBALS['ip']) . "$email) AND statut='spam'") > 0
319 // activer aussi le flag spammeur connu en cas de flood, meme si aucune detection spam jusqu'ici
320 // on sera plus severe sur les liens dans ce cas
321 // cas du spammeur qui envoie que des messages a 3 liens a haute frequence (passe a travers tous les filtres)
322 // au bout du 5e message en <10min ou 10e en <30min on va moderer tout message avec un lien
323 if (!$spammeur_connu){
324 if (($nb=sql_countsel('spip_forum','(ip='.sql_quote($GLOBALS['ip']).$email.') AND '.nospam_sql_date_proche('date_heure','-30','minute')))>=7){
325 spip_log("[Flood] $nb message pour (ip=".$GLOBALS['ip']."$email) dans les 30 dernieres minutes",'nospam');
326 $spammeur_connu = true;
329 if (!$spammeur_connu){
330 if (($nb=sql_countsel('spip_forum','(ip='.sql_quote($GLOBALS['ip']).$email.') AND '.nospam_sql_date_proche('date_heure','-10','minute')))>=3){
331 spip_log("[Flood] $nb message pour (ip=".$GLOBALS['ip']."$email) dans les 10 dernieres minutes",'nospam');
332 $spammeur_connu = true;
336 $lang_suspecte = false;
337 // si c'est un spammeur connu,
338 // verifier que cette ip n'en est pas a son N-ieme spam en peu de temps
339 // a partir d'un moment on refuse carrement le spam massif, le posteur devra attendre pour reposter
340 if ($spammeur_connu) {
341 // plus de 30 spams dans les dernieres 2h, faut se calmer ...
342 // ou plus de 10 spams dans la dernieres 1h, faut se calmer ...
343 // ou IP blacklistee et plus de 5 messages prop/spam dans les dernieres 48h, faut se calmer ...
345 (isset($GLOBALS['ip_blacklist'][$GLOBALS['ip']])
346 AND ($nb = sql_countsel('spip_forum', sql_in('statut',array('spam')).' AND (ip=' . sql_quote($GLOBALS['ip']).') AND ' . nospam_sql_date_proche('date_heure','-48','hour'))) >= 5
350 (($nb = sql_countsel('spip_forum', 'statut=\'spam\' AND (ip=' . sql_quote($GLOBALS['ip']) . $email . ') AND ' . nospam_sql_date_proche('date_heure','-120','minute'))) >= 30
353 (($nb = sql_countsel('spip_forum', 'statut=\'spam\' AND (ip=' . sql_quote($GLOBALS['ip']) . $email .') AND ' . nospam_sql_date_proche('date_heure','-60','minute'))) >= 10
356 $flux['data']['statut'] = ''; // on n'en veut pas !
357 spip_log("[Refuse] $nb spam pour (ip=" . $GLOBALS['ip'] . "$email) dans les $h dernieres heures", 'nospam');
360 spip_log("POST *suspect* spammeur_connu","nospam");
362 // sinon regarder si l'objet a une langue, et si le post est dans la meme langue ou non
363 // en cas de langue differente, on se mefie
365 $lang_objet = ($GLOBALS['spip_lang']?
$GLOBALS['spip_lang']:$GLOBALS['meta']['langue_site']);
366 if ($flux['data']['objet']){
367 $table = table_objet_sql($flux['data']['objet']);
368 $trouver_table = charger_fonction("trouver_table","base");
369 if ($desc = $trouver_table($table)
370 AND isset($desc['field']['lang'])){
371 $primary = id_table_objet($flux['data']['objet']);
372 $lang_objet = sql_getfetsel("lang",$table,"$primary=".intval($flux['data']['id_objet']));
375 include_spip("inc/detecter_langue");
376 $lang_post = _detecter_langue($flux['data']['texte']);
377 if ($lang_post!==$lang_objet)
378 $lang_suspecte = true;
379 spip_log("POST ".($lang_suspecte?
"*suspect* ":"")."en langue [$lang_post] sur $primary=".$flux['data']['id_objet']." en langue [$lang_objet]","nospam");
382 // si c'est un message bourre de liens, on le modere
383 // le seuil varie selon le champ et le fait que le spammeur est deja connu ou non
387 0 => array(1 => 'prop', 3 => 'spam'), // seuils par defaut
388 'url_site' => array(2 => 'spam'), // 2 liens dans le champ url, c'est vraiment louche
389 'texte' => array(4 => 'prop', 20 => 'spam') // pour le champ texte
391 // seuils severises pour les suspects : modere en prop des qu'il y a un lien, spam si plus de 5
393 0 => array(1 => 'spam'),
394 'url_site' => array(2 => 'spam'), // 2 liens dans le champ url, c'est vraiment louche
395 'texte' => array(1 => 'prop', 5 => 'spam')
397 // seuils pour les blacklist : si pas de lien on passe en prop par precaution, sinon en spam
398 'blacklist' => array(
399 0 => array(1 => 'spam'),
400 'url_site' => array(2 => 'spam'), // 2 liens dans le champ url, c'est vraiment louche
401 'texte' => array(0 => 'prop', 1 => 'spam')
405 $seuils = isset($GLOBALS['ip_blacklist'][$GLOBALS['ip']])?
$seuils['blacklist'] : (($spammeur_connu OR $lang_suspecte) ?
$seuils['suspect'] : $seuils[0]);
406 include_spip("inc/nospam"); // pour analyser_spams()
407 foreach ($flux['data'] as $champ => $valeur) {
408 $infos = analyser_spams($valeur);
409 if ($infos['contenu_cache']) {
410 // s'il y a du contenu caché avec des styles => spam direct
411 $flux['data']['statut'] = 'spam';
412 spip_log("\t" . $flux['data']['auteur'] . "\t" . $GLOBALS['ip'] . "\t" . "requalifié en spam car contenu cache", 'nospam');
414 elseif ($infos['nombre_liens'] > 0) {
415 // si un lien a un titre de moins de 3 caracteres, c'est louche...
416 if ($infos['caracteres_texte_lien_min'] < 3) {
417 $flux['data']['statut'] = 'prop'; // en dur en attendant une idee plus generique
418 spip_log("\t" . $flux['data']['auteur'] . "\t" . $GLOBALS['ip'] . "\t" . "requalifié en prop car moins de 3car hors liens", 'nospam');
421 if (isset($seuils[$champ]))
422 $seuil = $seuils[$champ];
426 foreach ($seuil as $s => $stat)
427 if ($infos['nombre_liens'] >= $s) {
428 $flux['data']['statut'] = $stat;
429 spip_log("\t" . $flux['data']['auteur'] . "\t" . $GLOBALS['ip'] . "\t" . "requalifié en " . $stat . " car nombre_liens >= " . $s, 'nospam');
432 if ($flux['data']['statut'] != 'spam') {
433 $champs = array_unique(array('texte', $champ));
434 if ($h = rechercher_presence_liens_spammes($infos['liens'], _SPAM_URL_MAX_OCCURENCES
, 'spip_forum', $champs)) {
435 $flux['data']['statut'] = 'spam';
436 spip_log("\t" . $flux['data']['auteur'] . "\t" . $GLOBALS['ip'] . "\t" . "requalifié en spam car lien $h deja dans un spam", 'nospam');
443 // verifier qu'un message identique n'a pas ete publie il y a peu
444 if ($flux['data']['statut'] != 'spam') {
445 if (sql_countsel('spip_forum', 'texte=' . sql_quote($flux['data']['texte']) . " AND statut IN ('publie','off','spam')") > 0){
446 $flux['data']['statut'] = 'spam';
447 spip_log("\t" . $flux['data']['auteur'] . "\t" . $GLOBALS['ip'] . "\t" . "requalifié en spam car message identique deja existant", 'nospam');
450 // verifier que cette ip n'en est pas a son N-ieme post en peu de temps
451 // plus de 5 messages en 5 minutes c'est suspect ...
452 if ($flux['data']['statut'] != 'spam') {
453 if (($nb = sql_countsel('spip_forum', 'ip=' . sql_quote($GLOBALS['ip']) . ' AND ' . nospam_sql_date_proche('date_heure','-5','minute'))) >= 5){
454 $flux['data']['statut'] = 'spam';
455 spip_log("[Flood2] $nb message pour (ip=".$GLOBALS['ip']."$email) dans les 5 dernieres minutes : requalif en spam",'nospam');
469 function nospam_sql_date_proche($champ, $interval, $unite) {
470 if (function_exists("sql_date_proche"))
471 return sql_date_proche($champ, $interval, $unite);
475 . (($interval <= 0) ?
'>' : '<')
476 . (($interval <= 0) ?
'DATE_SUB' : 'DATE_ADD')
478 . sql_quote(date('Y-m-d H:i:s'))
480 . (($interval > 0) ?
$interval : (0-$interval))
489 * Fermer la connexion pour que le visiteur n'attende pas apres le curl sur nospam.spip.net
493 function nospam_flush_close($content){
494 header("Content-Length: ".($l=ob_get_length()));
495 header("Connection: close");
500 * Flusher et lancer l'update de la liste des ip
502 function nospam_flush_and_update(){
503 chdir(_ROOT_CWD
); // securite en cas de register_shutdown_function
504 // forcer le flush des tampons pas envoyes (declenche le content-length/conection:close envoye dans cache_cool_flush)
505 $flush_level = ob_get_level();
506 while ($flush_level--) ob_end_flush();
508 if (function_exists('fastcgi_finish_request'))
509 fastcgi_finish_request();
510 nospam_update_ip_list();
513 if (!defined('_NOSPAM_IP_LIST_CACHE')) define('_NOSPAM_IP_LIST_CACHE',3600);
515 * Recuperer la liste des IP black ou grey sur nospam.spip.net
516 * si on a pas une liste a jour
517 * et la stocker dans un fichier
520 function nospam_update_ip_list($async=false){
521 $file = _DIR_TMP
."nospam_ip_list.txt";
522 if (file_exists($file) AND filemtime($file)>time()-_NOSPAM_IP_LIST_CACHE
)
524 spip_log("nospam_update_ip_list:$async","nospam");
527 // indiquer de fermer la connexion dans la foulee
528 // pour faire le hit de recuperation async hors temps d'attente
529 ob_start("nospam_flush_close");
530 register_shutdown_function("nospam_flush_and_update");
534 // on fait d'abord un touch car si le recuperer_page echoue (hebergeurs qui interdisent)
535 // on ne veut pas recommencer plein de fois de suite
537 $url_api = "http://nospam.spip.net/spamsignal.api/list";
538 include_spip("inc/distant");
539 include_spip("inc/json");
540 $res = recuperer_page($url_api);
541 if (!$res AND file_exists($f=_DIR_TMP
."spamsignal-api-list.txt"))
542 lire_fichier($f,$res);
544 AND function_exists("json_decode")
545 AND $liste = json_decode($res,true)){
546 ecrire_fichier($file,serialize($liste));
551 * Verifier le status d'une IP et la noter dans la globale ip_blacklist ou ip_greylist si c'est une IP louche
556 function nospam_check_ip_status($ip){
557 $file = _DIR_TMP
."nospam_ip_list.txt";
558 if (!file_exists($file) OR filemtime($file)<time()-2*_NOSPAM_IP_LIST_CACHE
)
561 lire_fichier($file,$liste);
562 spip_log("nospam_check_ip_status:$ip","nospam");
563 if ($liste = unserialize($liste)){
564 #spip_log($liste,"nospam");
565 $now = date('Y-m-d H:i:s');
566 $ip_family = preg_replace(",([.:])[^.:]+$,","$1*",$ip);
567 spip_log("ip $ip famille $ip_family","nospam");
568 foreach(array("blacklist","greylist") AS $l){
569 if (isset($liste[$l][$ip])
570 AND $liste[$l][$ip]>$now){
571 $GLOBALS['ip_'.$l][$ip] = true;
572 spip_log("$ip ajoute a ip_$l","nospam");
573 return ($l=="blacklist"?
"black":"grey");
575 if (isset($liste[$l][$ip_family])
576 AND $liste[$l][$ip_family]>$now){
577 $GLOBALS['ip_'.$l][$ip] = true;
578 spip_log("$ip ajoute a ip_$l (famille $ip_family)","nospam");
579 return ($l=="blacklist"?
"black":"grey");