crawl URLs regex, hilfe

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

crawl URLs regex, hilfe

Beitragvon funkdoobiest » Mi Jul 02, 2008 4:33 pm

hallo,

ich hab ein kleines problem mit dem crawlen und den regex.

gesetzt ist folgendes:

URL einer Forenübersicht: http://www.domain.de/community/foren.html
-> von dort aus gelangt man in verschiedene foren, z.b.
URL eines Forums: http://www.domain.de/forum/5-1-50/nameDesForums/
-> von dort aus gelangt man auf einzelne threads, z.b.
URL eines Threads: http://www.domain.de/diskussion/1086090 ... esThreads/

auf der Übersichtsseite des Forums, gibt es einen link http://www.domain.de/diskussion/IdDesTh ... beitraege/

und nur diese Seiten mit den neuesten Beiträgen sollen gecrawlt werden.

Ist das Möglich?

Ich habe 1. das problem das ich die regex nicht hinbekomme und 2. wenn ich den crawl auf die Forenübersicht starte,
crawlt er die unterseiten nich, auch wenn ich die tiefe auf 20 stelle.

gruss
funkdoobiest
 
Beiträge: 3
Registriert: Mi Jul 02, 2008 4:16 pm

Re: crawl URLs regex, hilfe

Beitragvon wsb » Do Jul 03, 2008 7:54 am

funkdoobiest hat geschrieben:hallo,
ich hab ein kleines problem mit dem crawlen und den regex.
gesetzt ist folgendes:
URL einer Forenübersicht: http://www.domain.de/community/foren.html
[...]
auf der Übersichtsseite des Forums, gibt es einen link http://www.domain.de/diskussion/IdDesTh ... beitraege/
und nur diese Seiten mit den neuesten Beiträgen sollen gecrawlt werden.
Ist das Möglich?

Ich wollte das gerade mal nachvollziehen, und sehen, ob ich es hinkriege, aber bei beiden URLs kriege ich erstmal "404 Not Found".
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: crawl URLs regex, hilfe

Beitragvon funkdoobiest » Do Jul 03, 2008 9:44 am

ach, echt jetzt?

dann versuchs doch mal mit wallstreet-online.de.
funkdoobiest
 
Beiträge: 3
Registriert: Mi Jul 02, 2008 4:16 pm

Re: crawl URLs regex, hilfe

Beitragvon wsb » Do Jul 03, 2008 1:23 pm

funkdoobiest hat geschrieben:ach, echt jetzt?
dann versuchs doch mal mit wallstreet-online.de.

No Problem: auch Unterseiten werden gecrawlt. Formuliere doch Dein regex-Problem mal mit irgendwelchen Unterseiten von wallstreet-online.de , damit man das testen kann.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: crawl URLs regex, hilfe

Beitragvon funkdoobiest » So Jul 06, 2008 5:26 pm

was z.b. funktionier ist folgender regex:
.*wallstreet-online.de/diskussion/*.*

aber auch nur, wenn ich als startseite z.b. http://www.wallstreet-online.de/forum/5-1-50/dax nehme.
von der forenübersicht aus funktioniert es nicht.

ich möche ja aber nicht alle diskussionen, sondern nur die neusten beiträge.
also z.b. folgende URL: http://www.wallstreet-online.de/diskuss ... ebeitraege
funkdoobiest
 
Beiträge: 3
Registriert: Mi Jul 02, 2008 4:16 pm

Re: crawl URLs regex, hilfe

Beitragvon thq » So Jul 06, 2008 7:28 pm

funkdoobiest hat geschrieben:was z.b. funktionier ist folgender regex:
.*wallstreet-online.de/diskussion/*.*

aber auch nur, wenn ich als startseite z.b. http://www.wallstreet-online.de/forum/5-1-50/dax nehme.
von der forenübersicht aus funktioniert es nicht.

ich möche ja aber nicht alle diskussionen, sondern nur die neusten beiträge.
also z.b. folgende URL: http://www.wallstreet-online.de/diskuss ... ebeitraege

Für die letzte URL sollte das hier passen
.*wallstreet-online.de/diskussion/[0-9]*/neustebeitraege

Könnte aber sein das es nicht geht weil der Crawler zu früh geblockt wird. Gleiches Problem gibt es auch bei den Blacklisten. Die müssten noch für den Indexer erweitert werden. Es macht ja durchaus Sinn Suchmaschinen als Startpunkt zu benutzen, aber die Seiten der Suchmaschine selbst sind nur Ballast für den Index. Außerdem möchte man ja die Information finden und nicht erst ein Link und dann wieder ein Link ...
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron