blogspot.com und Crawlen mit ?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

blogspot.com und Crawlen mit ?

Beitragvon Low012 » Mo Okt 20, 2008 10:48 am

Ich habe ein paar Blogs gecrawlt und dabei dummerweise dynamische URLs mit Fragezeichen zugelassen. Das hier ist dabei rausgekommen: http://4o4.dyndns.org:8080/yacysearch.h ... urce=local

Vielleicht sollte man blogspot.com also doch nicht mit "Fragezeichen-URLs" crawlen... ;)
Dateianhänge
Clipboard01.png
Clipboard01.png (36.05 KiB) 699-mal betrachtet
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: blogspot.com und Crawlen mit ?

Beitragvon Orbiter » Mo Okt 20, 2008 11:00 am

na hier fehlt dann noch ein double-check aufgrund eines Ähnlichkeitsmaß der Dokumenteninhalten .. das wir nicht haben
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: blogspot.com und Crawlen mit ?

Beitragvon Low012 » Mo Okt 20, 2008 12:01 pm

Ja, ich habe schon ein bisschen hin und her überlegt, wie man sowas realisieren könnte, ohne übermäßig Ressourcen zu verbrauchen, habe aber noch keine ideale Lösung gefunden. Ganze Texte dauerhaft zu speichern kommt ja nicht in Frage, man könnte vielleicht eine Art Hash berechnen, wobei zwei ähnlich, aber unterschiedliche Texte grade nicht auf zwei stark unterschiedliche Zahlwerte projeziert werden, sondern möglichst auf gleiche Werte. Dabei wären aber Kollisionen wie beim "normalen" Hash auch unerwüscht, um nicht zu zwei völlig unterschiedlichen Texten gleiche Werte zu bekommen. Fehlt "nur" noch eine geeignete Funktion. ;)
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: blogspot.com und Crawlen mit ?

Beitragvon DanielR » Mo Okt 20, 2008 12:29 pm

Sind hier die Texte nicht identisch, nur die URLs unterschiedlich? Also dafür wäre ein normaler Hash jedenfalls gut. Evtl. nur vom Body, so dass unterschiedliche Metatags auch ignoriert werden...
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: blogspot.com und Crawlen mit ?

Beitragvon Low012 » Mo Okt 20, 2008 12:59 pm

Der einzige Unterschied der Seiten scheint zu sein, dass die Baumstruktur der Links links unten unterschiedlich aufgeklappt ist. Wenn man nur den eigentlichen Text innerhalb des Bodys nehmen würde, würde es an dieser Stelle einen Unterschied geben, der bei einem normalen Hash wahrscheinlich 2 völlig unterschiedliche Werte ausspucken würde. Man müsste also irgendwie erkennen, welche Teile der Seite wichtig sind und welche nicht: vielleicht nur alle Inhalte in kompletten Sätzen (Gruppen von Buchstaben, die mit einem Punkt, Fragezeichen oder Ausrufungszeichen beendet werden und evenetuell durch Komma oder Semikolon unterbrochen sind). Das macht dann aber wieder Probleme bei Sprachen, die solche Satzzeichen nicht kennen (Wie ist das bei asiatischen Sprachen? Da kenne ich mich nicht aus.) und bei Seiten mit technischen Daten. Alternativ könnte man auch einfach alle Links ignorieren, dann dürften Menüs ja größtenteils wegfallen.

edit: Hätte man eine Möglichkeit, doppelte oder ähnliche Seiten zu finden, indem man den Hash-Wert der aktuellen Seite mit den Werten aus einer Datenbank vergleicht, könnten trotzdem noch dopplete Seiten in den Index kommen, wenn man einen Crawl verteilt. Das ließe sich nur verhindern, wenn man auch beim Remote Crawling Hash-Werte des Inhalts hin und her schickt, was aber wieder mehr Traffic und einen höheren Aufwand bedeuten würde.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: blogspot.com und Crawlen mit ?

Beitragvon Low012 » Do Nov 13, 2008 2:10 pm

So, hab den Thread wieder ausgegraben, weil das Problem "Doublettencheck" ja noch nicht gelöst ist.

NiX Spam nutzt für die Erkennung von Spam u.a. Fuzzy Checksums. Das Prinzip wurde mal in einem Artikel in der iX erklärt. Ich habe mir den Artikel eben besorgt und werde demnächst mal schauen, ob man das Prinzip so ähnlich auf YaCy anwenden kann.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: blogspot.com und Crawlen mit ?

Beitragvon PCA42 » Do Nov 13, 2008 4:44 pm

Ich kann da mal eine alte Idee ins Rennen werfen: Wir waren schon mal so weit, dass wir URLs "stemmen" wollten. Damit sollte sich sowas vielleicht vermeiden lassen. http://forum.yacy-websuche.de/viewtopic.php?f=5&t=16
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron