erneutes crawlen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

erneutes crawlen

Beitragvon ribbon » So Dez 02, 2012 2:44 pm

Hallo

ich habe gesehen, dass sich einige Funktionen ja super entwickelt haben, wie z.B. die Übersicht aller Domains ("Host Browser" - wer hat den gemacht??) und wieviele Urls dahinter stecken oder auch die Top 1000 Domain Funktion.

Ich hatte bei alexia.com versucht zu crawlen, aber das geht nicht wegen robots-exclusion. Dann hatte ich das dort angebotene URL-Zip heruntergeladen, mit den 1 MIO meistbesuchten Webseiten, die Zahlen ersetzt und die Urls als http://www. (statt Kommata) als text im HTML oder in einer XML gespeichert aus Excel.

Leider kann mein HTML Editor die 100 MB Webseite nicht laden und ich glaube yacy auch nicht.

Dabei wäre es doch gut, diese URLs zu implementieren: http://s3.amazonaws.com/alexa-static/top-1m.csv.zip

Der Host Browser verlinkt als Funktion zu yacy, um die nächste Ebene zu haben. Einige Domains kenne ich nicht und wollte die mal browsen aus der yacy Seite heraus, kann man nicht einen Button machen, so dass man auf den klickt und sich copy paste der URL sparen kann und dann die Domain im Browser ansehen kann?

Nebeneffekt: Dann kann man diese Seite auch nochmal abspeichern als html und alle Hosts in der Seite Hostbrowser nochmal als Crawlstartseite starten!!


So dieser Hintergrund erzeugt folgende Frage:

Ich habe nun eine Alexa Url, die in den Top 1000 Alexa Urls drin ist, in yacy aber nicht. Ich crawle die nun.
Wie kann dann sichergestellt sein, dass auch im Host Browser diese Domain ebenso (mit den vielen Unterseiten) erstens ebenso vorhanden ist oder gar ein entsprechenes Ranking aufgrund der Menge der Webseiten hat? d.h. die Unterseiten alle auch gecrawled werden.

Meine Lösung dazu wäre die Anregung, dass man per DHT eingehende URLs bzw. Domains oder die Webseite des Domain-Host-Browser Ansicht *****SELBST ****** nochmal crawled oder es in regelmässigen Abständen tut.

D.h. wenn eine Domain-liste vorhanden ist, habe ich z.B. an meiner gesehen, dass das russische Unix Forum ganz oben ist, und dass irgend einer seinen Blog für Filme gut crawled. Damit wird aber der Index zu einem Spako-getriebenen Index und ist nicht repräsentativ.


Mein Vorschlag oder Frage ist daher, URLs können über DHT oder einen eigenen oder remote Crawl kommen, ich fände es aber gut, wenn es VIERTENS einen AUTO Crawl der Domains gäbe, so dass ich selbst anfage, bei dem EIngang einer neuen, meinem Node bislang unbekannten Domain, diese nochmal selbst zu crawlen. Auch wenn mir einer die Website oder Webseiten oder die Domain des Unixforum sendet. Die Inhalte könnten ja neu sei und es macht doch dann Sinn, es nochmal selbst als Startseite zu crawlen.

Wäre es möglich, eine default-on check box zu haben, dass die Webseite einer dem Node neu bekannt werdenden Domain mit 1 Hop nochmal crawled?

Insofern angenommen UnixForum wäre nicht top, sondern gar nicht bekannt, dann würde hierzu ein Crawl gestartet und zwar nicht nur von mir, sondern von jedem Node, der diese neue Domain bekommt per DHT.

Es ist sehr interessant, die Top 1 Mio Domains von Alexa zu vergleichen mit den von Yacy aus dem Host Browser.

Wie bekommt man die Alexa Domains in Yacy ähnlich repräsentativ hinein? Ich weiss, dass man die Zahl der gecrawlten Unterseiten und überhaupt vorhandene Unterseiten als Rankingtreiber vergleicht mit den Klickbasierten Rankings von Alexa.

Aber dennoch sollten grosse Webseiten die bei Alexa sind auch durch yacy gecrawlt werden.

Hat das schon jemand versucht? und kann es ein Re-Crawl der Host Browser Seite geben, z.B. indem man die Domain auch mit HTTP verlinkt in einem zweiten Hyperlink dahinter?
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: erneutes crawlen

Beitragvon Orbiter » So Dez 02, 2012 4:40 pm

ei ribbon, das sind viele Frage, weiss gar nicht wie man die strukturiert beantworten kann. Kannst du ggf. noch ein paar Nummer davor machen, dann ist das einfacher zu zitieren.

Der HostBrowser hat eine interessante Geschichte und ich kann sie jetzt noch nicht erzählen ... später!

Die große Alexa-Liste sollte man verarbeiten können, ich empfehle dir hier mit einem emacs ranzugehen, nicht excel.

Dazu auch: man kann jetzt den Crawler mit einer langen Liste direkt starten; Crawl starts können nun mehr als einen Startpunkt haben.

"Der Host Browser verlinkt als Funktion zu yacy, um die nächste Ebene zu haben" verstehe ich nicht."

"kann man nicht einen Button machen, so dass man auf den klickt und sich copy paste der URL sparen kann und dann die Domain im Browser ansehen kann?" -> wo soll der Button hin?

"Wäre es möglich, eine default-on check box zu haben, dass die Webseite einer dem Node neu bekannt werdenden Domain mit 1 Hop nochmal crawled?" - sicher... muss nur jemand machen! Du kannst auch mal versuchen solche Dinge aus dem Log herauszufinden und dann zu scripten.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: erneutes crawlen

Beitragvon ribbon » So Dez 02, 2012 5:36 pm

ok danke für die Antwort. PS: die Homepage flackert durch reloaden im explorer.
Der Button soll direkt hinter der Domain in der Host Liste. Wenn ich einen Link in der Host Liste Klicke, kommt ja die nächste-Sub-Liste der Domain in yacy, ich will den Host aber als Webseite browsen, also nicht zu //hostlisteyacy?yahoo.de sondern direkt zu www.yahoo.de

Wichtig ist mir, dass man eingehende Domains nochmal selbst crawled. oder man in der Host-Liste neben den Domains und dem Link zur Webseite des Hosts auch noch einen weiteren Button hat: Crawle diese Domain!!! Das wöre dann zwar manuell, aber nur zwei zeilen code für jede Domain.

und: Das Crawlen ist sehr unübersichtlich in der Gui geworden. die Expter-Crawl Seite habe ich unten gar nicht erst gefunden und für einen gestarteten Crawl finde ich auch keine Aktivität. Io_Java erro, dann war die Doman schon da und crawl verweigert. dann war ein robotexclusion drauf. dann war der skyscraper, der keinen crawl zuliess, einmal ist es mir gelungen, nach einem Crawl was zu sehen.

Wenn ich den Crawl auf 1 setzte, und die Host-Browse-Liste im HTML-Editor zu links gemacht habe, dann müsste er mir doch die 1000 URLS der Webseite anzeigen, leider geht das aber nicht. Sondern irgendwie fängt er bei der ersten URL (bei Tiefe 3) die erste Url (das war yacy.net) zu crawlen.
Dann ging er weiter und ich hatte weder die 2. Url von den 1000 noch eine Übersicht der 1000 Urls.

Kann man es nicht so strukturieren, dass erstmal alle 1000 Urls einer seite gelistet werden, dann die 100 Links auf der Seite der ersten URl von den 1000?
Bei Hop1 braucht man eine manuelle Eingreifmöglichkeit. Ich sehe eine neue Seite, crawle die mit hop 1, und habe alle 100 Links auf der Seite.
dann will ich in einer Liste manuell mit check boxen sagen, diese weitercrawlen und diese nicht.

Z,B, ausgehend von der Top 1 Mio Alexa liste oder der Top 100 Hostbrowse Liste aus yacy. Ich will meinen Crawler nicht zur Top Domain unixforum senden und dort erstmal 5 Stunden austoben lassen, wenn ich sagen will, dass er diese Domain überspringt und stattdessen die Top 8 Postion der Urls auf einer Seite zuerst crawled.

Oder Ausgabe bei Hop 1 aller gefundenen URls auf einer Seite nach Alphabet und dann kann ich mit checkboxclick definieren, was als nächstes im 1 Hop Verfahren gecrawelt wird ...


Danke Gruss
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron