Proxy-Crawling geht nur so halb...?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Proxy-Crawling geht nur so halb...?

Beitragvon datenritter » Fr Jan 15, 2010 5:53 pm

Hmm irgendwie läuft auch in 6587 das Proxy-Crawling nicht so wirklich toll. Entweder gibt es nach einer Weile auf (oder durch Exceptions, die z.B. beim schnellen Neuladen geworfen werden - broken pipe), oder es hat etwas mit den Seiten zu tun, die ich aufrufe. Wikipedia wird z.B. komplett ignoriert. Ich habe mal irgendwo gelesen, dass Webseiten, denen man Cookies sendet, ausgelassen werden. Das ist bei mir überwiegend nicht der Fall (Cookie-Blocker), und ich finde auch bei der WP (wo es sein könnte) keine entsprechende Meldung im Log...

Ich würde das gerne systematischer angehen, aber ich weiß nicht, wo ich suchen, bzw. wie ich testen soll.
datenritter
 
Beiträge: 43
Registriert: So Sep 20, 2009 2:13 pm

Re: Proxy-Crawling geht nur so halb...?

Beitragvon datenritter » Fr Jan 15, 2010 6:01 pm

Ah, da steht's ja. POST und Cookies führen also zum Ausschluss. (Wäre cool, wenn man die Cookie-Exklusion abstellen könnte, bei der WP z.B. macht das keinen Sinn.)

(Weiteren Text gelöscht, weil verklickt. Eigene Dummheit.)
datenritter
 
Beiträge: 43
Registriert: So Sep 20, 2009 2:13 pm

Re: Proxy-Crawling geht nur so halb...?

Beitragvon datenritter » Fr Jan 15, 2010 6:06 pm

Heißt also, dass man eine Crawl anschmeißen kann für Seiten, die Links mit GET-Parametern enthalten (?value=bla), aber diese beim Proxy-Crawling ignoriert werden. Ok, das ist sicherheitstechnisch logisch, schließt aber sehr viele PHP-basierte Seiten aus.
datenritter
 
Beiträge: 43
Registriert: So Sep 20, 2009 2:13 pm

Re: Proxy-Crawling geht nur so halb...?

Beitragvon datenritter » Fr Jan 15, 2010 6:09 pm

Ah, und Seiten mit eingehenden Cookies werden auch ignoriert?
datenritter
 
Beiträge: 43
Registriert: So Sep 20, 2009 2:13 pm

Re: Proxy-Crawling geht nur so halb...?

Beitragvon Quix0r » Fr Jan 22, 2010 1:27 pm

Das liest dann ja nur Eingangsseiten oder "gute" Adressen per mod_rewrite per Proxy ein.

Ist mir aber auch schon aufgefallen.
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron