Mediawiki-crawl

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Mediawiki-crawl

Beitragvon berni » Di Mai 15, 2012 3:19 pm

Hab' grad zum Testen ein Mediawiki gecrawled. Kurz danach hab' ich festgestellt, dass es dafür bereits einen vorgefertigten Crawl gibt. Deswegen hab' ich den anderen abgebrochen, bei (5) local Crawling die entsprechende Seite gelöscht und den Mediawiki-Crawl gestartet. Der tut jetzt aber nichts. Auch ein erneuter normaler Crawl auf der Seite wird hartnäckig ignoriert. Was mache ich falsch?
berni
 
Beiträge: 11
Registriert: Fr Mär 23, 2012 9:11 am

Re: Mediawiki-crawl

Beitragvon Lotus » Di Mai 15, 2012 3:59 pm

Ich würde zunächst die Fehlermeldung lesen. Steht unter
http://localhost:8090/IndexCreateParserErrors_p.html
Creation Monitor
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Mediawiki-crawl

Beitragvon berni » Di Mai 15, 2012 7:33 pm

Da steht:

redirection to double content (http return code = 301)


So wie ich das verstehe, denkt Yacy, das die Seite schon mal gelesen wurde und deswegen nicht erneut indiziert werden muss. Ich hab' sie aber, wie oben beschrieben, gelöscht. Sie wird auch bei der Suche nicht gefunden. Der 301 ist bei Mediawiki auf der Startseite meines Wissens normal.
berni
 
Beiträge: 11
Registriert: Fr Mär 23, 2012 9:11 am

Re: Mediawiki-crawl

Beitragvon Lotus » Di Mai 15, 2012 8:50 pm

Das hast du richtig interpretiert. In der einfachen Startoption fehlen Parameter die eingestellt werden können.

Möglichkeiten mit dem Holzhammer wären:
Bei alleinigem Einsatz fürs Mediawiki: den Index zurücksetzen
Ansonsten eine Domain-Top Statistik generieren, hoffen dass sie dort erscheint, und die Domain löschen.
Geht beides unter Index Administration.
Oder warten bis der Content etwas "gealtert" ist. (keine schnelle Lösung)
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Mediawiki-crawl

Beitragvon berni » Mi Mai 16, 2012 8:50 am

Lotus hat geschrieben:Möglichkeiten mit dem Holzhammer wären:
Bei alleinigem Einsatz fürs Mediawiki: den Index zurücksetzen


Das hab' ich mal ausprobiert, weil ich ja ohnehin nur am rumprobieren bin. Jetzt kommt die Fehlermeldung "Dynamic_(POST)".

PS: Kann man irgendwo einen bereits beendeten crawl abändern und dann neu starten?
berni
 
Beiträge: 11
Registriert: Fr Mär 23, 2012 9:11 am


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast