Intelligent crawler?

Ereignisse, Vorschläge und Aktionen

Intelligent crawler?

Beitragvon liebel-lab » Di Okt 21, 2008 7:48 am

Quizfrage für donnerstag :-)
Ziel: Für sciencenet sollen z.bsp alle *.edu oder *.ac.uk seiten indiziert werden...staendig kommen neue seiten hinzu und man kann eigentlich NICHT jedes mal
von einer Uni-Liste ausgehen und alle seiten mit tiefe 5 recrawlen...

Idee01: Suche auf dem sciencenet *.edu peer nach "edu" und verwenden der aktuellen ergebnisse zum recrawl....naja :-/ ...
Was waere eine bessere idee um einen intelligenten crawler zu generieren ?
Idee02: autorecrawl von newsseiten (z.Bsp "sciencedaily.com" mit filter "*.edu"...haben wir..aber das reicht nicht, da ja nicht jede seit ein der presse erscheint

fuer die beste lösung stellen wir gerne einen weitere "entwicklungsrechner" im freeworld zur verfuegung :-)

salve
UL
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Intelligent crawler?

Beitragvon Low012 » Di Okt 21, 2008 9:27 am

Ich denke, wirklich an alle aktuellen Domains kommt man nur, wenn man an das zone file für die entsprechende Top Level Domain kommt. Da man mit sowas auch prima spammen könnte, sind die normalerweise nicht frei zugänglich. Wenn ich das richtig verstanden habe, ist es aber möglich, einen kostenlosen Zugang zu diesen Dateien zu erhalten, indem man einen Vertrag mit den entsprechenden Organisationen schließt, in dem man sich dazu verpflichtet, gewisse Datenschutzregeln einzuhalten, und im Gegenzug das Recht erhält, (gelegentlich) auf die Datei zuzugreifen.

Für .org sollte das hier möglich sein: http://www.pir.org/index.php?db=content ... trars&id=7

Für .ac.uk müsste http://www.ja.net/ zuständig sein.

Wenn man das zone file hat, kann man die Domains darin mit einer älteren Version der Datei vergleichen und erhält so die Neuzugänge und die erloschenen Domains.

Ansonsten ist http://www.educause.edu/memdir/672 vielleicht noch ein netter Startpunkt für das Sciencenet (wenn das nicht sowieso schon gecrawlt wird).
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron