Strategie für (externe) Foren-Crawls

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Strategie für (externe) Foren-Crawls

Beitragvon surfvive » Fr Sep 13, 2013 9:00 am

Hi,
ich habe die letzten Tage unter anderem Foren in meinem Crawler gehabt. Mittlerweile habe ich einen Stapel Regulärer Ausdrücke, um die gefundenen Seiten auf die entsprechend Inhaltstragenden Seiten zu reduzieren. Das ganze funktioniert einigermaßen brauchbar :D. Mein ursprünglicher Gedanke war, anschließend per RSS Feed Import nur noch Updates der entsprechenden Foren zu crawlen.

So weit der Gedanke :) .. jedoch musste ich feststellen das die URLs im RSS Feed in der Blacklist hängen bleiben, da Links in der Form
Code: Alles auswählen
../viewtopic.php...&goto=newpost
erzeugt werden. Diese werden aufgrund der Parameter (die zu Duplikaten führen würden) geblockt.

Das ganze wirft bei mir zwei Fragen auf..
  • Hat jemand bereits eine brauchbare Strategie gefunden, um Foren so zu crawlen, das möglichst wenig Overhead entsteht?
  • Da ich aus dem Bereich der Informationswissenschaft komme, frage ich mich, ob man Yacy eine art "Content Awareness" verpassen könnte? BTW bin ich bei der Recherche auf das Research-Projekt iRobot von Microsoft gestossen, die ähnliches versucht haben.
surfvive
 
Beiträge: 23
Registriert: Do Mai 24, 2012 9:02 am
Wohnort: Hannover

Re: Strategie für (externe) Foren-Crawls

Beitragvon Cajun » Mo Dez 09, 2013 9:27 pm

Hallo,


... Brauchbare Strategien? Ja, auf der Sources-Ebene, zumindest in einem heuristischen Sinne ;-)

Würde mich interessieren, was Sie unter 'Content Awareness' verstehen!?


Da Yacy zum crawlen zunächst ganz einfach Links braucht, löste ich das ähnlich, wie von ihnen beschrieben:

1.) Ein Script, welches Link-Extraktionen und Kürzungen der Links auf Pfade, aus etwa vierteljährlich generierten TOP 200 - SERPs, vornimmt, deren Such-Queries explizit und implizit auf Foren abzielen
2.) Diese Listen werden dann als Start-Listen für einen regelmässigen Crawl eingesetzt, wobei der Crawl auf die jeweils darunterliegenden Pages beschränkt wird

Da die Foren-Landschaft nicht so dynamisch ist, dass die Startlisten für meine Belange ständig verändert werden müssten, geht es bei mir bislang händisch zu - es sollte jedoch auch relativ einfach machbar sein, bspw. mit wget und grep, automatisch und regelmässig solche Listen aktuell generieren, und diese dann Yacy unterschieben, zu lassen ...
Cajun
 
Beiträge: 10
Registriert: Di Nov 19, 2013 9:35 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron