Features, Speicherplatz, Recrawl

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Features, Speicherplatz, Recrawl

Beitragvon Noki » Do Jan 15, 2009 9:48 pm

Hallo!

Ich habe mir YaCy mal angeschaut und finde es ein sehr gelungens Stück Software. Gerne würde ich YaCy im Bereich von SEO-Analysen (Linkanalysen und Site-Analysen) einsetzen, da die großen Suchmaschinenbetreiber in der Vergangenheit diese Features stark eingeschränkt haben. Ist es möglich Operatoren wie

site:example.com
link:http://www.example.com
ip:127.0.0.1

zu implementieren oder gibt es schon die Möglichkeiten diese Daten über YaCy zu erhalten?

Darüber hinaus konnte ich keine Informationen darüber finden wie YaCy beim Crawlen den Speicherplatz verwaltet und wie ich verhinden kann das mit ein Crawl die Platte vollschreibt. Beim Setup sollte man die Möglichkeit haben den für YaCy zur Verfügung stehenden Plattenplatz zu definieren. Informationen darüber wie und wann YaCy Seiten erneut crawlt wären darüber hinaus für Einsteiger ebenfalls sehr hilfreich.

MfG T. Schwarz
Noki
 
Beiträge: 6
Registriert: Do Jan 15, 2009 9:34 pm

Re: Features, Speicherplatz, Recrawl

Beitragvon Lotus » Fr Jan 16, 2009 8:53 am

Die Operatoren ohne Suchwort zu benutzen ist im Moment nicht vorgesehen.

Es gibt jedoch andere Wege an die Daten zu kommen:
Unter http://localhost:8080/IndexControlURLs_p.html kannst du die Top-Domains auflisten lassen und deine Links exportieren.

Unter http://localhost:8080/WatchWebStructure_p.html kannst du nach einem Crawl die Verlinkung ansehen. Die Rohdaten sind im Ordner DATA/PLASMADB/webStructure.map gespeichert.

IPs werden soweit ich weiß gar nicht gespeichert.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Features, Speicherplatz, Recrawl

Beitragvon Noki » Fr Jan 16, 2009 12:19 pm

Ich habe mir die Rohdaten gerade mal angeschaut. YaCy scheint nur die Beziehungen zwischen den Hosts zu erfassen und nicht die Beziehungen einzelner Seiten zueinander. Von einer Analyse von eingehenden Links auf eine spezielle URL ist YaCy damit wohl weit entfernt.
Noki
 
Beiträge: 6
Registriert: Do Jan 15, 2009 9:34 pm

Re: Features, Speicherplatz, Recrawl

Beitragvon Orbiter » Fr Jan 16, 2009 1:13 pm

bei der Analyse eingehender Links muss man immer die Frage stellen 'wie vollständig ist das'. Und die Antwort muss immer 'unvollständig' sein, wenn man nicht das gesamte Internet, so weit bekannt, abgegrast hat. Das ist nicht die Größenordnung, in der ein einzelner Crawler operieren kann, und auch nicht alle YaCy-Peers zusammen. Wir machen diese Link-Analyse bislang nur 'zum Spass', bzw. für Verwerter wie dich!

Man muss aber abwägen zwischen dem was möglich ist, und wie nützlich es ist. Wenn wir beispielsweise eingehende Links nur auf Link-Basis, und nicht domänen-Basis analysieren würden, so wäre die Ausbeute sicherlich recht mager, und die Statistiken würden dir sicherlich kaum mehr zeigen, als 'kein Link' oder 'ein Link'. M.E. schafft man nicht viel mehr Vollständigkeit mit unseren Möglichkeiten. Solltest du aber ein paar hundertausend Rechner, wie Google es hat, auftreiben, so könnte ich die Vorgehensweise noch mal überdenken.
Orbiter
 
Beiträge: 5799
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Features, Speicherplatz, Recrawl

Beitragvon Noki » Fr Jan 16, 2009 1:40 pm

Das eine Liste eingehender Links nicht vollständig wird ist mir absolut bewusst. Trotzdem ist die Analyse von genauen Linkbeziehungen eine Wertvolle Quelle für die Bewertung einzelner Unterseiten und ihrer Relevanz innerhalb der Suchergebnisse einer Suchmaschine, aber auch innerhalb der Seite selbst. Allein aus den internen Linkverbindungen einer einzelnen Domain kann ein Webmaster mit einer geeigneten Visualisierung Stärken und Defizite seiner internen Verlinkung erkennen und somit die Strukturen seiner Seite optimieren.

Ich persönlich habe ein Interesse an sehr speziellen Daten und crawle für Link und Domainanalysen Teile von aktuell mehr als 5 Mio Domains regelmäßig. Andere mit bekannte SEOs crawlen in ähnlichem, manche sogar in größerem Umfang. Ich kann mir gut vorstellen das zusätzliche Features wie detaillierte Linkbeziehungen, Listen von nichtmehr erreichbaren Hosts, etc. eine Reihe von neuen, kommerziell betriebenen und starken Peers hervorbringen würden die das Netz deutlich nach vorne bringen würden. Die Verteilung der Ergebnisse würde allen beteiligten einem deutlichen Mehrwert bringen und ein koordiniertes Crawlen könnte gleichzeitig das auf vielen Seiten eh schon sehr hohe Crawlaufkommen deutlich reduzieren.
Noki
 
Beiträge: 6
Registriert: Do Jan 15, 2009 9:34 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron