URLs in Blacklist erhalten nach Remote-Crawl RWI zurueck?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

URLs in Blacklist erhalten nach Remote-Crawl RWI zurueck?

Beitragvon Quix0r » Do Feb 11, 2010 10:10 pm

Ich habe hier ein weiteres Problemchen vielleicht entdeckt und moechte es mal chronologisch nachstellen:
- Eine URL (geparkte Domain) soll remote gecrawlt werden.
- Der Remote-Peer erledigt dies und sendet das RWI zurueck
- Die Domain ist aber geblacklistet, wird aber dennoch angenommen oder auch nicht

Und genau hier weiss ich das nicht, ob es so ist. Hier mal ein Beispiel dazu:
Code: Alles auswählen
I 2010/02/11 21:55:25 PLASMA crawlReceipt: RECEIVED RECEIPT from EqCc6_lMxG__:xotti-de/0.9300665 for URL zPncfSFh8a6D:http://www.mobile-reit-und-fahrschule.de/info/Jassen.html?ses=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Probiere ich die URL am Blacklist-Tester, so erhalte ich folgendes:
The tested URL was http://www.mobile-reit-und-fahrschule.de/info/Jassen.html
It is blocked for the following cases:
Crawling
DHT
News
Proxy
Search
Surftips

Eigentlich sollte doch hier das RWI abgelehnt werden, oder wird das nur nicht ausgegeben? Standart-Logging-Einstellungen habe ich hier und SVN 6659.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: URLs in Blacklist erhalten nach Remote-Crawl RWI zurueck?

Beitragvon dulcedo » Fr Feb 12, 2010 4:02 am

Ich würde sagen da der andere die URL nicht auf seiner Blacklist hat indexiert er sie und bestätigt dir das damit du sie aus deiner to-crawl liste entfernen kannst.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: URLs in Blacklist erhalten nach Remote-Crawl RWI zurueck?

Beitragvon lulabad » Fr Feb 12, 2010 6:10 am

Eigentlich dürfte die URL doch gar nicht zum remote crawlen verschickt werden, da sie ja auf der Blackliste steht.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: URLs in Blacklist erhalten nach Remote-Crawl RWI zurueck?

Beitragvon dulcedo » Fr Feb 12, 2010 8:00 am

Das ist eben die eher grundsätzliche Frage. Wenn der andere peer die URL nicht gelistet hat dann möchte er sie ja indexieren, möchte er das nicht dann listet er sie auch und der Ursprungspeer versucht weiter sie woanders crawlen zu lassen. Wenn ein peer diese URL in seinem Index möchte sollte man ihn nicht daran hindern also es zumindest versuchen sie crawlen zu lassen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron