Schlechte Erfahrungen mit dem Yacy-Bot?

Wo stand was zu YaCy in der Presse?

Schlechte Erfahrungen mit dem Yacy-Bot?

Beitragvon David » So Okt 13, 2013 5:37 pm

Offenbar finden ein paar Leute den Yacy-Bot nicht so toll:

"Der YaCy-Bot ist der Crawler einer verteilten Suchmaschine aus Russland, die mit Peer-to-Peer-Technik arbeitet. Bereits durch dieses Funktionsprinzip ist ein hohes Risiko von - möglicherweise unbeabsichtigten - DDoS-Angriffen gegeben."
Quelle: http://de.wetena.com/bot/yacy-bot

"Beim YaCy-Bot neige ich zur Ansicht von Wetena. Dass der Bot unbekümmert vorgeht habe ich auch festgestellt. Auch wenn der Grundgedanke durchaus in Ordnung ist, Spammer, Content-Grabber und die üblichen robots.txt-Ignoranten verwenden alles, was sich verwenden lässt."
Quelle: http://www.kocznar.com/bot/blacklist/YaCy-Bot.htm (Domain ist für den Yacy-User-Agent gesperrt.)
David
 
Beiträge: 170
Registriert: Di Mär 05, 2013 5:35 pm

Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Beitragvon Orbiter » Mo Okt 14, 2013 12:39 am

ohne Trollfutter verstreuen zu wollen: der yacybot ist äusserst konservativ was die robots.txt angeht! Das heisst:

- die robots.txt wird selbstverständlich befolgt
- der crawler läd niemals mehr als 2 Seiten pro Sekunde von der gleichen Domäne um eben nicht zu DoSen,
- der crawlen ist gar nicht unbekümmert weil er auch noch die Antwortzeit des remote Servers misst und mindestens das doppelte der letzten Antwortzeit als mindest-Wartezeit zwischen zwei Ladezugriffen nutzt. Eine Einsicht in die Statistik über die remote response Time hat man in jedem Peer in /api/latency_p.xml

Um das plausibel zu machen:
- bei jeden Crawl Start wird die robots.txt geladen. Nur wenn diese das Crawlen erlaubt, wird auch der Crawl Start erlaubt. Das sieht man interaktiv während man die Start-URL eintippt durch Erscheinen des grünen Hakens.
- eine Einsicht in die Liste der geladenen robots.txt erhält man über die Seite /Tables_p.html?table=robots
- einen Test, ob die robots.txt erkannt und richtig verstanden wird kann man mit Hilfe der Seite /CrawlCheck_p.html durchführen.

Ausserdem gibt der User-Agent von YaCy den Link http://yacy.net/bot.html an, welcher erklärt dass Yacy die robots.txt befolgt.
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Beitragvon freak » Mo Okt 14, 2013 2:58 pm

Dazu hab ich eine (Verständnis)-Frage: Auch wenn ein einzelner Crawler alles macht, um nicht unnötig viele Request an eine Internetseite abzusetzen, wie sieht das im YaCy Netzwerk aus? Hier gibt es ja theoretisch unzählige YaCy Instanzen, jede für sich mit einem Crawler. Was passiert z.B. wenn 10 YaCy Instanzen zufällig dieselbe Domain crawlen? Würde das nicht die Schutzmechanismen, wie z.b. das ein Crawler nur 2 Seiten / Sekunde holt nicht aushebeln? Bei 10 Crawlern wären das ja rein rechnerisch schon 20 Seiten / Sekunde, die ein Webserver für YaCy abarbeiten müsste.
Unterhalten sich die YaCy Instanzen im Netzwerk was sie gerade crawlen, um so etwas zu vermeiden oder kann man das Thema "verschiedene Yacy Instanzen - gleiche Domain" generell vernachlässigen, weil es statistisch gesehen nicht oder sehr selten vorkommt?
freak
 
Beiträge: 21
Registriert: Do Okt 10, 2013 10:59 pm

Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Beitragvon Orbiter » Mo Okt 14, 2013 5:36 pm

natürlich kann so etwas zufällig passieren, oder wenn man das vermuten will: man kann sich dazu auch verabreden. Das ist aber kein Problem von YaCy, eine solcher Zusammenschluss von Leuten zum Zwecke des DDoSen kann ja auch mit jeder anderen Software ausgeführt werden, und da gibt es wesentlich bessere Werkzeuge als YaCy die dafür gedacht sind so etwas agressiv zu tun.

Was hier wichtig ist: es gibt dabei keinen konzeptionellen Fehler bei YaCy, denn die in YaCy vorhandene remote-crawl Funktion, welche ja Teile des Crawl Baumes nach aussen abgeben kann, hat ebenfalls die gleiche Crawl-Bremse eingebaut: die URLs werden so vom Crawl Stack für die remote Crawler ausgelesen, als sollten sie lokal geladen werden. Und hier schlägt auch die Bremse zu, so dass es kein 'versehentliches' DDoSen durch einen Konstruktionsfehler in YaCy geben kann.

Wenn man sich diese Argumente in den Berichten oben durchliest, so sieht man sehr deutlich dass diese 'vermutlichen Beschuldigungen' nicht aus Erfahrungswerten herausgelesen wurden sondern auf den Verdacht, dass bei der Konstruktion von YaCy doch bestimmt ein Fehler sei. Das ist nicht so.
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Beitragvon freak » Mo Okt 14, 2013 5:59 pm

Orbiter hat geschrieben:...

Was hier wichtig ist: es gibt dabei keinen konzeptionellen Fehler bei YaCy, denn die in YaCy vorhandene remote-crawl Funktion, welche ja Teile des Crawl Baumes nach aussen abgeben kann, hat ebenfalls die gleiche Crawl-Bremse eingebaut: die URLs werden so vom Crawl Stack für die remote Crawler ausgelesen, als sollten sie lokal geladen werden. Und hier schlägt auch die Bremse zu, so dass es kein 'versehentliches' DDoSen durch einen Konstruktionsfehler in YaCy geben kann.
....

Ok, danke für die Infos. :)

Was kann man jetzt gegen solche falschen negativ Meldungen zum YaCy Crawler unternehmen?
freak
 
Beiträge: 21
Registriert: Do Okt 10, 2013 10:59 pm

Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Beitragvon Orbiter » Di Okt 22, 2013 2:49 pm

naja du kannst das machen was jeweils möglich ist: Texte im Wiki abändern, in foren kommentieren und ggf. den Leuten eine email schreiben.
Aber du weisst ja was passiert, wenn man einen troll füttert....
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Beitragvon freak » Di Okt 22, 2013 6:47 pm

Orbiter hat geschrieben:...Aber du weisst ja was passiert, wenn man einen troll füttert....

Ja das kenn ich. das kann sehr ermüdend und demotivierend sein.
freak
 
Beiträge: 21
Registriert: Do Okt 10, 2013 10:59 pm

Re: Schlechte Erfahrungen mit dem Yacy-Bot?

Beitragvon David » Di Okt 22, 2013 9:43 pm

Bild
David
 
Beiträge: 170
Registriert: Di Mär 05, 2013 5:35 pm


Zurück zu Presse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste