Wie kann ich Apache2 für den Crawler konfigurieren?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Wie kann ich Apache2 für den Crawler konfigurieren?

Beitragvon zen » So Jul 28, 2013 12:42 pm

Hallo,

jetzt habe ich Yacy zum Laufen gebracht, aber die Suche finktioniert nicht. Soweit ich verstanden habe, muss der Crawler erst laufen, um Suchergebnisse zu erhalten.

Dazu gebe ich bei "Seiten crawl start" ein : http://meineWebseite/data, da nur der Bereich data durchsucht werden soll.

Da es aber ein Wiki ist, ist der direkte Zugriff auf diesen Ordner über Apache mit "deny from all" gesperrt.

Wie kann ich jetzt Yacy die Suche erlauben?

Selbst wenn ich den Ordner freigebe funktioniert es nicht.

Fehlermeldung:

"Crawling von "http://meineWebseite/data" schlug fehl. Grund: scraper cannot load URL: java.io.IOException: REJECTED EMPTY RESPONSE BODY 'HTTP/1.1 403 Forbidden' for URL http://meineWebseite/data/


Gruß

zen
zen
 
Beiträge: 8
Registriert: Sa Jul 27, 2013 11:01 am

Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Beitragvon Ruhe » So Jul 28, 2013 12:50 pm

Kann man vielleicht über eine .htaccess im Ordner steuern.
Ich meine, dass man in der .htaccess bestimmten Bots den Zugriff erlauben oder verbieten kann.
Den genauen Namen, mit dem sich der YaCy-Bot meldet, mit dieser Info kann ich grad leider nicht dienen.
Ruhe
 
Beiträge: 75
Registriert: So Jul 21, 2013 10:37 am

Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Beitragvon zen » So Jul 28, 2013 1:00 pm

Leider bringt das nichts, da ich eine config für Apache habe und htaccess keinen Unterschied macht.

Wie ich noch geschrieben habe, kann der Crawler auch nicht zugreifen, wenn ich den Zugriff auf "Allow from all" setze. Siehe Fehlermeldung oben.

Gruß

zen
zen
 
Beiträge: 8
Registriert: Sa Jul 27, 2013 11:01 am

Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Beitragvon Ruhe » So Jul 28, 2013 1:08 pm

Nur mal ein Versuch, kannst du das Verzeichnis mal crawlen lassen indem du ein / am Ende zufügst (http://meineWebseite/data/)
Ruhe
 
Beiträge: 75
Registriert: So Jul 21, 2013 10:37 am

Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Beitragvon zen » So Jul 28, 2013 1:11 pm

Leider die gleiche Fehlermeldung :(.
zen
 
Beiträge: 8
Registriert: Sa Jul 27, 2013 11:01 am

Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Beitragvon Ruhe » So Jul 28, 2013 1:17 pm

Muss man den Apache nach einer Konfigänderung - Zugriffserlaubnis auf ein Verzeichnis - neu starten?

Fällt mir sonst auch nicht wirklich was zu ein :?
Ruhe
 
Beiträge: 75
Registriert: So Jul 21, 2013 10:37 am

Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Beitragvon zen » So Jul 28, 2013 1:23 pm

Ja habe ich mit "service apache2 restart" neu gestartet.

Gibt denn die Fehlermeldung oben keinen Hinweis?
zen
 
Beiträge: 8
Registriert: Sa Jul 27, 2013 11:01 am

Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Beitragvon Ruhe » So Jul 28, 2013 1:57 pm

Mir sagt die Meldung nicht wirklich was, man findet sie aber mehrmals hier im Forum.
Ruhe
 
Beiträge: 75
Registriert: So Jul 21, 2013 10:37 am

Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Beitragvon zen » So Jul 28, 2013 2:10 pm

Nächster Versuch:

Da yacy ja auf meinem Linux-Webserver installliert ist, habe ich einfach Intranet ausgewählt und den Pfad zu meiner Webseite angegeben.
Nun funktioniert der Crawler.

Leider wird nun im Suchergebnis nur file:// und nicht http:// ausgegeben. :(
zen
 
Beiträge: 8
Registriert: Sa Jul 27, 2013 11:01 am

Re: Wie kann ich Apache2 für den Crawler konfigurieren?

Beitragvon cryptosteve » So Jul 28, 2013 2:51 pm

zen hat geschrieben:Leider wird nun im Suchergebnis nur file:// und nicht http:// ausgegeben. :(

Ja, klar, Du hast ja auch nur lokale Files crawlen lassen.

Entweder ich habe komplett nicht kapiert, was Du realisieren möchtest, oder es ist zum Scheitern verurteilt. Einen Webserver öffentlich zu durchsuchen, der öffentliches Durchsuchen per Config verbietet, ist irgendwie sinnfrei.
cryptosteve
 
Beiträge: 9
Registriert: So Jul 14, 2013 6:48 am
Wohnort: Buchholz / Nordheide


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron