[PATCH] Blockierte URLs per "crawlReceipt" in den Index

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

[PATCH] Blockierte URLs per "crawlReceipt" in den Index

Beitragvon Quix0r » Di Dez 14, 2010 8:53 am

Hallo,

ich konnte das besagte Problem bis jetzt mehrmals nachvollziehen, daher beschreibe ich erstmal meine Herangehensweise:
- URLs werden gecrawlt und es werden auch Crawls an andere Peers verteilt (noetiges DHT an, Principal)
- Es wird z.B. die URL http://ungewollte-url-foo.bar in die Blacklist getan (ist z.B. fuer alles gesetzt)
- Nun wurde die (von einem vollen oder langsamen mit nur 6 PPM z.B.) URL remote gecrawlt und kommt per crawlReceipt: RECEIVED RECEIPT from 8LdY6uOGaTkd:ICSY/0.9900731 for URL jRlvmdYqFS_Y:http://ungewollte-url-foo.bar wieder doch in Index
- Diese taucht zwar in den Suchergebnissen nicht auf, da dort die Blacklist BLACKLIST_SEARCH greift, aber "muellt" den Index zu und kann nur mit dem URL-Cleaner wieder bereinigt werden

Mein Vorschlag waere hier folgender Code (nicht ganz ein Patch):
Code: Alles auswählen
    [... wo weiter oben ...]
    final boolean blockBlacklist = sb.getConfig("indexReceiveBlockBlacklist", "false").equals("true");
    [... mehr code hier ...]
    // check if the entry is blacklisted
    if ((blockBlacklist) && (Switchboard.urlBlacklist.isListed(Blacklist.BLACKLIST_DHT, metadata.url()))) {
        Log.logFine(LoggerNames.LOGGER_HTROOT_TRANSFER_URL, "crawlReceipt: Received blacklisted URL from " + otherPeerName + " for URL " + new String(entry.hash()) + ":" + metadata.url().toNormalform(false, true)");
        prop.put("delay", "9999");
        return prop;
    }

Somit kommen keine gesperrten URLs in den Index, die von fremden Peers gecrawlt wurden. Und der lokale Peer kann entscheiden, ob er die URL in den Index hinzufuegt oder nicht.

Anderere Frage:
Mein Peer foo sendet an Peer bar eine bei bar gesperrte URL aus. Nimmt bar diese an oder wie "merkt" foo, dass die URL bei bar gesperrt ist?
Zuletzt geändert von Quix0r am Mi Feb 02, 2011 4:37 am, insgesamt 1-mal geändert.
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Blockierte URLs kommen per "crawlReceipt" in den Index

Beitragvon Quix0r » Di Feb 01, 2011 10:18 am

Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 5 Gäste

cron