Websites mit 'Bugs' -> "endlos-urls"

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Websites mit 'Bugs' -> "endlos-urls"

Beitragvon Quix0r » So Mai 31, 2009 7:59 pm

Wurde eigentlich schon etwas gegen Webseiten gemacht, die eine Endlos-URL - also endloses Crawlen zum Fangen von Bots - hervorrufen? Mir ist beim Durchstoebern des Logfiles die Domain baecker.biz aufgefallen.

Hier ist mal ein Beispiel:
baecker.biz/seiten/start/seiten/rezepte/seiten/start/seiten/mehl/


Diese sollte - und andere bitte hier auch melden - erstmal in die Blacklist kommen:
baecker.biz/.*


Hab sie erstmal gesperrt. In Zukunft sollten wir da aber etwas gegen machen. Kam per Remote-Crawl rein. Ich weiss, dass eine Crawl-Tiefe eingestellt werden kann, dennoch kam mir die URL suspekt vor!
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Websites mit 'Bugs' -> "endlos-urls"

Beitragvon Orbiter » Mo Jun 01, 2009 1:20 am

das sollte sich über die Crawl-Tiefe und eine Mengenbegrenzung pro Domäne machen lassen. Eine allgemein funktionierende Lösung ohne Konfiguration kann ich mir hier nicht vorstellen. Hier kann man genau so gut in einen honeypot geraten wie in eine echte große Anzahl von Dateien.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Websites mit 'Bugs' -> "endlos-urls"

Beitragvon Quix0r » Mo Jun 01, 2009 6:28 am

Okay. :)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Websites mit 'Bugs' -> "endlos-urls"

Beitragvon Nighthawk » Mo Jun 01, 2009 11:26 am

Ich bin immer dankbar für den Hinweis auf solche Domains, habe sie meiner allgemeinen Blocklist hinzugefügt.

Danke. :)
Nighthawk
 
Beiträge: 25
Registriert: Do Jun 28, 2007 12:14 am

Re: Websites mit 'Bugs' -> "endlos-urls"

Beitragvon Quix0r » Mo Jun 01, 2009 11:50 am

Bitte, bitte. :)

Mir schwebt da aber jetzt eine andere Loesung vor und ich glaube, so funktioniert unser grosser Bruder G. so:

- Es wird die URL auf Haeufigkeiten von Suchworten analysiert und entsprechend fafuer zerlegt (anhand von den Zeichen /,_,- usw.) die URL aufteilen, so dass nur die Suchworte uebrig bleiben.
- Dann werden alle Worte mit Laenge kuerzer oder gleich X raussortiert (verworfen)
- Anschliessend wird die nun geschrumpfte Liste gegen yacy.badwords (meine ich?) abgeglichen und wieder gefundene Worte rausgeworfen
- Danach wird geschaut, welche der gefundenen Worte zu haeufig vorkommen und die gesamte Domain (!) wird in eine Grey-Liste getan (mit News, vote=greylist).
- Dort verbleibt sie "zur Beobachtung"
- Sollte sich nach einem gewissen Zeitraum sich nichts aendern, wird die URL (mit News-Eintrag, vote=negative) in eine zu den manuell gepflegten Blacklists seperate getan
- Sollte sich die Seite bessern, weil z.B. der Betreiber dies bemerkt hat (Fehler in Webseite gefunden, was okay ist), wird sie mit einer erneuten News (vote=degreylist) wieder ausgetragen und kann normal indexiert werden

Dieses Verfahren von Greylisting ist z.B. auf Wikipedia gut beschrieben und kann auch wie oben verdeutlicht, leicht auf andere Gebiete uebertragen werden.

Implementierungsideen habe ich noch nicht, da mein Java noch nicht ausreichend ist. Es muesste auf jedem Fall geachtet werden, dass das Zerlegen der URLs in Suchworte in einer seperaten Klasse (Stichwort: Kapselung) erfolgt, damit sie wiederverwendbar wird.

Ideen dazu? (Nein, ich will nicht hoeren, dass dies kein Sinn macht, dann habt ihr euch den Eintrag auf Wikipedia nicht durchgelesen!)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Websites mit 'Bugs' -> "endlos-urls"

Beitragvon Quix0r » Mi Jun 17, 2009 12:12 am

online-bestellen.us/.*

... kannst du bequem dazupacken. Ich sehe dort eine leere Seite und viele verdeckte Links mit riesen Beschreibungen. Auch die Suchwoerter riechen verdaechtig nach einer Suchmaschinen-Vollmuell-Seite.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Websites mit 'Bugs' -> "endlos-urls"

Beitragvon Nighthawk » Fr Jun 19, 2009 12:31 am

Quix0r hat geschrieben:
online-bestellen.us/.*

... kannst du bequem dazupacken. Ich sehe dort eine leere Seite und viele verdeckte Links mit riesen Beschreibungen. Auch die Suchwoerter riechen verdaechtig nach einer Suchmaschinen-Vollmuell-Seite.


Und *Schnapp*, soeben hinzugefügt.

Danke. :)
Nighthawk
 
Beiträge: 25
Registriert: Do Jun 28, 2007 12:14 am

Re: Websites mit 'Bugs' -> "endlos-urls"

Beitragvon Quix0r » Fr Jun 19, 2009 9:54 am

Ich glaube, Cloaking nennt man das. Sollte ich mal in die Wunschliste einfügen.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Yahoo [Bot] und 3 Gäste

cron