Proxy lehnt alle URL`s ab

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Proxy lehnt alle URL`s ab

Beitragvon Llandon » So Jun 17, 2012 10:57 am

Hallo.
Seit einigen Monaten habe ich mal wieder einen Versuch mit Yacy in der Version 1.02/9000 gestartet, es ist mal wieder ein Rechner über... :-)

Eine Frage:
Der Proxy sammelt fleissig die URL`s der Surfer, doch kein einziger führt zu einem Crawl.
Weder Ebay, noch Corad.de, miele.de, vdbweb.de, nickles.de oder heise.de

Folgende Meldungen fand ich sehr häufig bei den Rejected URLs:

Stale_(denied_by_cache-control=PRIVATE, MUST-REVALIDATE, MAX-AGE=0)
Dynamic_(Requested_With_Cookie)

Die zweite Meldung bedeutet vermutlich das eine dynamisch erzeugte Seite nicht indiziert wird, doch was bedeutet die erste Meldung? Fast alle Einträge werden damit abgelehnt...

Vielen Dank
Matthias
Llandon
 
Beiträge: 25
Registriert: Di Feb 17, 2009 10:28 am
Wohnort: Borgholzhausen

Re: Proxy lehnt alle URL`s ab

Beitragvon Orbiter » So Jun 17, 2012 11:55 am

hallo Llandon, ich war so frei den Topic-Titel mit Bezug auf 'Proxy' zu ändern....

es ist wahrscheinlich so, dass deine Beobachtung ganz normal ist. Die proxy-scraping Regel lehnt sehr konsequent alles ab, was irgendwie personalisiert sein kann. In diesem Fall ist es "Dynamic_(Requested_With_Cookie)".

Die proxy-scraping Idee ist in einer Zeit enstanden, in denen es tatsächlich noch sehr sehr viele statische Webseiten gab. Heute kommt fast alles aus Content Management Systemen und die benutzen gerne zur Beobachtung der Session einen Cookie. Sowas wird dann von der proxy-scraping-regeln abgelehnt.

Da ist die Frage berechtigt ob die Funktion überhaupt noch tauglich ist! Meine Antwort darauf ist 'nein'. Am liebsten würde ich daher die funktion ganz aus YaCy herausnehmen. Tatsächlich finden noch so viele Leute die Idee attraktiv, sodass ich das Messer zum Rausschneiden der Funktion noch nicht rausgenommen habe.

Ein adäquater Ersatz wäre eine Auslagerung der Funktion: ein externer Proxy reicht die Daten an YaCy weiter, ggf. als Dublin Core Metadata Record. Dann kann jeder selber bestimmen wieviel Privatsphäre man dem Proxy-User zugesteht.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Proxy lehnt alle URL`s ab

Beitragvon Llandon » So Jun 17, 2012 1:52 pm

Hallo Orbiter,

Vielen Dank für die schnelle Antwort.

Nur mal so aus Neugierde:
Wie viel Zeit steckt in diesem Projekt?

Ich habe Yacy ja schon vor ein paar Jahren und zwischendurch immer mal wieder probiert und schon damals bekam ich in diesem Forum postwendend eine Antwort auf meine Fragen.
An dieser Stelle mein großes Damkeschön an all die Leute die Ihre Zeit hier investieren!!!!

Kann ich auf diese Beschränkungen Einfluß nehmen?
Wenn nein würde das heissen das wohl nur ein ganz kleiner Prozentsatz an gecachten Seiten überhaupt indiziert wird...
Die Tagesschau war nach über 20 Versuchen die erste Domain die eine Indizierung auslöste, kommt der Rest denn auch irgendwie in den Index??

Ich muß zugeben von Suchamschinentechnik immer noch nicht soo viel zu verstehen, aber wie werden denn all die dynamischen Seiten erfasst? (Das sind ja wohl mittlerweile die meisten wie Du schon geschrieben hast...
Llandon
 
Beiträge: 25
Registriert: Di Feb 17, 2009 10:28 am
Wohnort: Borgholzhausen

Re: Proxy lehnt alle URL`s ab

Beitragvon Orbiter » Mo Jun 18, 2012 4:37 pm

viele dynamisch erzeugte Seiten sollen in den Index, ausser sie sind personalisiert. Du bekommst auf verschiedene Arten Webseiten mit Hilfe des Crawlers, mit site maps, rss feeds und auch per oai-pmh download in den Index. Das können auch dynamisch erzeugte sein. Der crawler produziert keine Privatsphährenprobleme, daher darf der alles.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Proxy lehnt alle URL`s ab

Beitragvon crilla » So Okt 07, 2012 3:53 am

***
Zuletzt geändert von crilla am Mo Okt 24, 2016 2:03 am, insgesamt 1-mal geändert.
crilla
 
Beiträge: 5
Registriert: Mo Jun 28, 2010 10:25 am

Re: Proxy lehnt alle URL`s ab

Beitragvon Lotus » Di Okt 09, 2012 7:16 pm

Hi crilla,
die einzigen Einstellungen für den Proxy findest Du auf der Seite /ProxyIndexingMonitor_p.html
Viele Grüße
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast