Was soll ich denn noch crawlen?

Ereignisse, Vorschläge und Aktionen

Was soll ich denn noch crawlen?

Beitragvon Low012 » Sa Jul 24, 2010 5:22 pm

Wer nicht weiß, was er crawlen soll, aber seinen Index sinnvoll vergrößern möchte, kann sich mal das Projekt FindLinks/NextLinks der Uni Leipzig ansehen.

Dort wird ein Crawler angeboten, der Seiten herunterlädt, analysiert und die Ergebnisse an einen Server der Uni Leipzig schickt. Man kann YaCy leicht als Proxy dazwischen schalten und dann nimmt YaCy alle Inhalte auch in seinen Index auf. Somit ist beiden Projekten geholfen.

Um FindLinks mit YaCy laufen zu lassen, ist es lediglich nötig, dem Programm zu sagen, dass es YaCy als Proxy nutzen soll. Das kann man mit den folgenden Parametern machen:
Code: Alles auswählen
java -Dhttp.proxyHost=localhost -Dhttp.proxyPort=8080 -jar findlinks.jar

Wenn man das Programm noch nie mit seinem Benutzernamen und seinem Passwort aufgerufen hat, sieht einen Fehlermeldung. Wenn man die entsprechenden Parameter aber einmal angegeben hat, werden sie in einer .ini-Datei gespeichert:
Code: Alles auswählen
java -jar findlinks.jar -g off -u username -p password

Der Parameter -g off schaltet die grafische Oberfläche aus, was auf einem Server ganz nützlich sein kann. Auf einem Desktoprechner kann man natürlich auch -g on wählen.

Einen Nachteil hat das Vorgehen aber auch: Der Proxy wird ständig genutzt und aus Performancegründen wird das Crawling dabei pausiert. Man legt also den Crawler durch das Programm lahm. Es ist daher nicht sinnvoll, auf http://localhost:8080/ProxyIndexingMonitor_p.html eine "Prefetch Depth" größer als 0 anzugeben. Außerdem wäre es wohl gut, Findlinks z.B. mit cron zu starten und zu beenden, damit man dem Crawler Zeit gibt, auch mal Crawls abzuarbeiten. Eventuell setze ich einen extra Peer auf, der sich dann nur um Findlinks kümmert und die Daten dann in den globalen Index sendet.

edit: Habe einen entsprechenden Peer aufgesetzt: http://4o4.dyndns.org:8082/ (4o4_findlinks)
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Was soll ich denn noch crawlen?

Beitragvon Copro » So Jul 25, 2010 8:27 pm

Danke für den Hinweis auf das sehr interessante Projekt.
Ein nettes Tool dazu und verbraucht mit sehr wenig Rechenleistung und RAM doch eine Menge Bandbreite ;-)
Der Server der aktuell YaCy nicht mehr packt kann das Programm noch problemlos laufen lassen.
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am

Re: Was soll ich denn noch crawlen?

Beitragvon Huppi » Do Jul 29, 2010 8:24 pm

Schickes Projekt!

Ich hatte ja mal eine Zeit lang Majestic12 über den YaCy Proxy laufen lassen, habe mir aber YaCy schnell lahmgelegt wg. Prefetch.
Evtl. traue ich mich da auch noch mal heran:
http://www.majestic12.co.uk/

Wollen wir dort nicht ein "Team YaCy" in die Highscores bringen? :-)
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Was soll ich denn noch crawlen?

Beitragvon ribbon » So Aug 01, 2010 12:34 pm

Den Vorschlag, dass die Ergebnis Seiten der Leute, die bei Metager.de nach Stichworten suchen, durch Metager in einen YaCy Cralwer aufnehmen zu lassen, hatte mal im Forum hier gestanden. Wenn mane einen Leistungsfähigen PC dort zwischenschaltet, wäre eine Verteilung /upload der Urls ebenso möglich.
Wie sieht es damit aus? Sich in andere professionalle URL suchen einzuklinken finde ich ganz gut, z.B. auch Scroogle könnte man ansprechen.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Was soll ich denn noch crawlen?

Beitragvon Low012 » Mo Aug 02, 2010 7:17 pm

Ich habe jetzt bei meinem Peer auf http://localhost:8080/Performance_p.html den "online caution"-Wert für den Proxy auf 0 gesetzt, weil der Peer sonst keine Daten per DHT verschickt hat.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Was soll ich denn noch crawlen?

Beitragvon Lotus » Di Aug 24, 2010 10:25 pm

ribbon hat geschrieben:Wie sieht es damit aus? Sich in andere professionalle URL suchen einzuklinken finde ich ganz gut, z.B. auch Scroogle könnte man ansprechen.

Es gibt mittlerweile eine sog. Suchheuristik im Admin-Interface. Da wird das bei einer YaCy-Suche gemacht.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Was soll ich denn noch crawlen?

Beitragvon Vega » Do Sep 09, 2010 11:23 am

wortschatz.uni-leipzig.de - ist das Projekt überhaupt noch aktiv ? Mir macht das einen recht verwaisten Eindruck, der Client funktioniert nicht mit Java 1.6, ich bekomme kein Gui, und nachfragen peer E-mail werden nicht beantwortet. Hat da jemand einen heißen Draht zu den Betreibern ?

Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Was soll ich denn noch crawlen?

Beitragvon Quix0r » Fr Sep 10, 2010 10:06 am

Ich habe mir das kleine JAR auch gezogen und hatte zuerst Schwierigkeiten, mich einzuloggen obwohl das Passwort definitiv stimmte. Es muss der MD5-Hash des Passwortes in die findlinks.ini Datei reingetragen werden und nicht das Passwort selbst.

Aber nun laedt es friedlich - manchmal zu friedlich - Webseiten herunter und YaCy bekommt alles per Proxy mit. :)

Passt vielleicht auch zum Thema: Falls der FL-Crawler noch nicht reicht und der YaCy-Crawler Langeweile hat:
http://www.rss-verzeichnis.de/
http://www.rss-verzeichnis.biz/

Da gibt es genuegend RSS-Feeds, die man einbinden darf, einfach crawlen, Tiefe 6 sollte erstmal reichen. :)

Nochmals zu FindLinks: Unter Statistics->Word race kann man ganz nette Sachen veranstalten, z.B. habe ich mal google, yacy, yahoo und ixquick eingegeben. Auch YaCy hat etwas abbehommen, aber Yahoo! und Google haben die meisten Funde (Yahoo wohl wegen der eMail-Adressen, die bei Google gmail heissen). IxQuick kein einziges Wort derzeit.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Was soll ich denn noch crawlen?

Beitragvon Vega » Mo Sep 13, 2010 12:34 pm

Findlinks Projektstatus.....

viewtopic.php?f=7&t=478
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Was soll ich denn noch crawlen?

Beitragvon Orbiter » Do Sep 16, 2010 10:41 am

für alle die 'einfach irgendwas' crawlen wollen empfehle ich nochmal einen Blick auf den überarbeiteten remote crawler, SVN 7159
- im 'index creation' menü ist nun der remote crawler unter 'Network Harvesting Methods' drin
- dort mal mehr PPM einstellen, bsp. 300
- 300 ppm ist nun auch default bei neuen Peers, dafür ist das Feature per defaul aus weil es ein wenig zu 'invasiv' für Neulinge ist. Ich denke sowas sollte man nicht aufgedrückt bekommen sondern freiwillig machen.

Der Crawler und das Nachladen der URLs von remote peers wurde verbessert, und das Senden von Receipts an die remote peers wurde durch den http-client fix (2 Sekunden delay) enorm beschleunigt. Man kann nun über 300 PPM erreichen, einfach mal ausprobieren.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Was soll ich denn noch crawlen?

Beitragvon EnTeQuAK » Fr Sep 17, 2010 10:47 pm

Orbiter hat geschrieben:Der Crawler und das Nachladen der URLs von remote peers wurde verbessert, und das Senden von Receipts an die remote peers wurde durch den http-client fix (2 Sekunden delay) enorm beschleunigt. Man kann nun über 300 PPM erreichen, einfach mal ausprobieren.


Super Arbeit, jetzt rast mein Peer noch schneller durch die Queue (die immer größer wird…) zwischen 800 bis 2500 ppm in guten Zeiten :mrgreen:
EnTeQuAK
 
Beiträge: 3
Registriert: So Jan 04, 2009 7:21 pm

Re: Was soll ich denn noch crawlen?

Beitragvon Orbiter » Mo Sep 20, 2010 10:26 am

eine andere Art den YaCy Index zu vergrößern ist übrigens das Suchen mit YaCy (sowieso, da kommen ja remote Ergebnisse von anderen Peers) und aber bei eingeschalteten Heuristiken werden site-crawls (bei Nutzung der domain-Navigatoren) und scroogle-Suchergebnisse (da werden dann die ganzen Seiten neu indexiert!) mit reingenommen.

So kann man auch mit einem ganz neuen _leeren_ index (sogar in Robinsonmodus oder im Portalnetz) Suchergebnisse rein bekommen: einfach die Scroogle-Heuristik einschalten. Dann füllt sich der Index mit den Seiten aus dem Scroogle Suchergebnis.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Was soll ich denn noch crawlen?

Beitragvon Quix0r » Di Jan 11, 2011 10:01 am

Wenn jemand von einer der aelteren Versionen von FindLinks auf die neuste Version aktualisiert hat und der Client mit einer NumberFormatException sich beendet, so fehlt ein Konfigurationseintrag, der mit jedem beliebigen Text-Editor (gedit/mcedit) nachtraeglich angehaengt werden muss (die entsprechende Mail ging auch an den Entwickler per BCC raus, vielleicht kommt also noch ein Update):
Die Lösung des Problems verbirgt sich im letzten Eintrag der findlinks.ini
-------------------------------
// time in min when collected data is sent to server
SendHomeInterval =
-------------------------------

Dieser sollte, z.B., die folgende Form haben:
-------------------------------
// time in min when collected data is sent to server
SendHomeInterval = 5
-------------------------------

Leider wird bislang kein entsprechender, für den Nutzer verständlicher
Hinweis durch den Client ausgegeben bzw. im Fall eines nicht
vorhandenen/sinnvollen Wertes kein Defaultwert genutzt.

Viel Spass weiterhin beim Befuellen des Indexes (und durchaus sindvolles Surfen). :)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron