webstructure.xml leer?!

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

webstructure.xml leer?!

Beitragvon thilo » Fr Jan 30, 2009 11:47 am

Hallo YaCy-Community,

ich habe einen Crawl beendet und wollte mir nun die Verlinkunsstrunktur der Seiten ansehen, über http://localhost:8080/xml/webstructure.xml. Das Ergebnis schaut so aus:

Code: Alles auswählen
  <?xml version="1.0" ?>
  <webstructure>
    <domains reference="reverse" count="0" maxref="300" />
  </webstructure>


Ich würde sagen: Es ist leer. Mache ich beim Aufruf was falsch (gibts Parameter?) oder hab ich bei den Crawl-Optionen was falsch eingestellt, so dass ihm nun Daten fehlen?

Danke für alle Hilfe!
Thilo
thilo
 
Beiträge: 10
Registriert: Di Jan 06, 2009 1:36 pm

Re: webstructure.xml leer?!

Beitragvon Low012 » Fr Jan 30, 2009 12:02 pm

Ich komme grad an meinen Peer nicht dran (Firewall :(), so dass ich nicht überprüfen kann, wie der sich bei der Abfrage verhält. Was du mal ausprobieren könntest, wäre die Seite http://localhost:8080/WatchWebStructure_p.html aufzurufen und dort zu schauen, ob dort etwas angezeigt wird. Wenn ja, dann weißt du immerhin schonmal, dass dein Peer die entsprechenden Daten gespeichert hat, sie nur beim Abruf als XML aus irgendeinem Grund nicht angezeigt werden.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: webstructure.xml leer?!

Beitragvon Orbiter » Fr Jan 30, 2009 12:07 pm

hast du den peer zwischenzeitlich schon mal runter gefahren? es ist nämlich so: es gibt eine new- und old- List für die Webstructure. Alles was durch das Crawlen 'gelernt' wird, kommt in die new-list. Die bekommst du dann so:
http://localhost:8080/xml/webstructure.xml?latest=
sobald du das abgerufen hast, ist die aber dann in die old-list geflusht, d.h. bei einem weiteren Aufruf ist die dann auch wieder leer, es sei denn du crawlst weiter. Das kann man benutzten um zu gucken was der Crawler gerade so besucht hat. Umgesetzt wird das im Java Applet auf der terminal-Seite.
Sobald du die URL oben ein mal aufgerufen hast, ist alles nun in der old-list, die du dann wieder mit
http://localhost:8080/xml/webstructure.xml
bekommst. Da sollte auch alles drin sein nach einem restart.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: webstructure.xml leer?!

Beitragvon Orbiter » Fr Jan 30, 2009 12:12 pm

Low012 hat geschrieben:http://localhost:8080/WatchWebStructure_p.html aufzurufen und dort zu schauen, ob dort etwas angezeigt wird. Wenn ja, dann weißt du immerhin schonmal, dass dein Peer die entsprechenden Daten gespeichert hat, sie nur beim Abruf als XML aus irgendeinem Grund nicht angezeigt werden.

Das wäre ein relevanter Test das du tatsächlich Daten hast, aber es würde trotzdem den Effekt haben, das du beim Aufruf ohne das 'latest' erst mal nichts bekommst.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: webstructure.xml leer?!

Beitragvon thilo » Fr Jan 30, 2009 4:04 pm

Ok, ich habe soeben das WatchWebStructure_p.html ausprobiert, es meldet mir: "No web structure data available. Start a new web crawl to obtain structure data".

Nun sagt mir WatchCrawler_p.html aber:

Database Entries
Pages (URLs) 80,058
RWIs (Words) 1,118,464

Ich hab also was in der db... aber keine Strukturdaten... was habe ich falsch eingestellt bzw. muss ich anders machen das nächste mal um Strukturdaten zu erhalten?
thilo
 
Beiträge: 10
Registriert: Di Jan 06, 2009 1:36 pm

Re: webstructure.xml leer?!

Beitragvon Orbiter » Fr Jan 30, 2009 4:36 pm

das sollte da sein. Gehen wir mal stufenweise an das Problem heran: bitte gucke mal, ob du die Datei
DATA/PLASMADB/webStructure.map
hast. Das wird bei jedem shutdown gemacht. Mach also erst ein shutdown, dann sollte das da sein. Steht was drin?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: webstructure.xml leer?!

Beitragvon thilo » Mi Feb 04, 2009 2:13 pm

oh, sorry für die verspätete antwort - irgendwie bekomme ich keine notifications bei neuen antworten im forum.

ich habe milerweile den crawl noch einmal neu gestartet und nun funktioniert es, es sind daten sowohl in webStructure.map als auch im xml. jetzt können wir nur leider nicht mehr herausfinden was da beim 1. mal schief gelaufen ist. ich bedanke mich trotzdem ganz herzlich für die hilfe!

thilo
thilo
 
Beiträge: 10
Registriert: Di Jan 06, 2009 1:36 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron