Must-(Not)-Match

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Re: Must-(Not)-Match

Beitragvon Lotus » Di Okt 26, 2010 12:51 pm

alfred_wien hat geschrieben:eine Seite und die dazu verlinken Webseiten crawlen. Wie mach ich das?


Wo ist der "Auto-Dom.-Filter"? Wurde der ausgebaut?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Must-(Not)-Match

Beitragvon Orbiter » Di Okt 26, 2010 12:56 pm

Lotus hat geschrieben:Wo ist der "Auto-Dom.-Filter"? Wurde der ausgebaut?

viewtopic.php?p=21013#p21013

aber ich glaube darum geht es gar nicht.
@alfred_wien: wie genau hast du den crawl gestartet? wenn du irgendwas in den must-not filter geschrieben hast kann es sein dass es daran lag (der must-not filter muss scheitern damit es weiter geht. dafür ist der Filter ja da. Der filter scheitert immer wenn man nichts rein schreibt.)
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Must-(Not)-Match

Beitragvon Lotus » Di Okt 26, 2010 1:11 pm

Oh, ist irgendwie an mir vorbeigegangen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Must-(Not)-Match

Beitragvon Lotus » Di Okt 26, 2010 1:21 pm

Steht in der Spalte rechts davon. Falls du konkrete Fragen hast kannst du sie gerne stellen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Must-(Not)-Match

Beitragvon Orbiter » Mi Okt 27, 2010 11:22 pm

alfred_wien hat geschrieben:Super! Was beudetet das? (Crawl Depth)

Ich war ja erst versucht zu schreiben dass das ja wohl bestimmt in der Erklärung in der rechten Spalte steht, aber beim genauen Durchlesen was da steht fällt einem auf dass da wohl recht viele Annahmen über die Vorbildung zur Funktionsweise von Webcrawlen gemacht werden. Also es steht da nicht.

Auch auf http://en.wikipedia.org/wiki/Web_crawler wird nichts anständiges zu 'depth' geschrieben, daher muss ich annehmen dass wir hier so betriebsblind sind und offenbar nicht sehen dass sowas richtig erklärt werden sollte.

Ich schreibe das jetzt hier so länglich weil alfred_wien hier ein guter 'Testkandidat' wäre um zu bewerten wie gut man sowas erklären kann. alfred_wien, bitte nehme es mir nicht übel dass ich dich jetzt ein wenig zu unserer Hilfe 'missbrauchen' möchte, weil ggf. eine Erklärung eines Laien für diese Themen wertvoll sein kann, weil wir das mit Betriebsblindheit nicht hinbekommen.

Richtig formal aufgeschrieben habe ich auch noch nie wie der Balancer als Crawler funktioniert. Es ist eine Kombination aus Breitensuche (http://de.wikipedia.org/wiki/Breitensuche ) und Tiefensuche (http://de.wikipedia.org/wiki/Tiefensuche ). Ich erkläre das jetzt mal extra formal und @alfred_wien: dich würde ich bitten dann das was du verstanden hast mit möglichst wenig Worten wieder auszudrücken. Dann bekommen wir vielleicht eine Erklärung die wir als Dokumentation verwenden können.

Also der Crawler baut einen Suchbaum so wie bei der Tiefensuche und Breitensuche beschrieben auf. Die Knoten dieses Suchbaums sind die Dokumente für je eine URL. Jeder Knoten hat Kindknoten, das sind dann die Dokumente die im Eltenknoten im Dokument mit ihren verlinkungs-URLs beinhaltet sind.

Beim Aufbau des Suchbaums werden dann folgende Regeln eingehalten:
- innerhalb einer Domäne wird Tiefensuche betrieben
- ausserhalb der Domänen wird Breitensuche über die Domänen betrieben
- der Suchbaum hat eine maximale Tiefe, das ist die "Crawl Depth"
- ein Suchbaum mit der maximalen Tiefe von 0 besteht per Definition nur aus dem Wurzelknoten, das ist die Start-URL

alfred_wien: wie schreibt man das möglichst in maximal zwei Sätzen? Das ist jetzt kein Scherz dass ich das dich frage und auch nicht böse gemeint. Es ist wirklich ein Problem in diesem Projekt dass wir zu viele Dinge machen die nicht knapp genug erklärt werden können.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste