"Overload" Beschwerden

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

"Overload" Beschwerden

Beitragvon liebel-lab » Mi Jul 02, 2008 3:30 pm

Hallo zusammen,
wir haben gerade von der Fh-Hannover angerufen dass ein systematischer "Angriff" von unseren Rechner auf die Fh-Hannover stattfinden würde.
Da die entsprechenden Rechner alle in unserer DMZ stehen und "YaCy" heissen war schnell klar was gemeint war.
@WSB: Hannover ist doch dien Revier, oder? .-)

Warum erwähne ich das?

A) Natuerlich haben wir den Kollegen aus Hannover erstmal beruhig, der "sein Netz 6h nicht verwenden konnte?" ("Zitat")....
Soweit ich sehen kann hat Yacy einwandfrei funktioniert und sich an die 180 (ppm) gehalten.....
Was uns verwundert ist, dass sich kein Mensch ueber Google beschwert (bei uns z.Bsp teilweise ...100Seiten/Sekunde ), aber alles andere als "Gefahr" gesehen wird...Ich sehe leider oft "robot.txt" files welche alles ausser Google filtern...

Überlegung: Offensichtlich ist hier viel Emotion und vielleicht auch Unwissenheit bzw panikartiges Auslesen der logfiles im Spiel.
Man könnte die Kollegen natuerlich belehren ....was nicht gut ankommt und so oder so nicht nett (auch ruftechnisch für YaCy wäre...
Vorschlag: Wäre es möglich (die 180ppm / site herab zu setzen? oder besser intelligent zu gestalten?.....wenn z.Bsp der webserver 3sekunden braucht um zu antworten...ihn nicht weiter mit Anfragen zu ärgern....oder so ähnlich....

Gibt es eigentlich eine Möglichkeit den bot direkt mit einer webseite zu "verlinken" um die Leute gleich aufzuklären dass Yacy ein projekt und kein DOS oder Virus ist? :-) ("z.Bsp indem man den bot "yacy.net" nennt oder "sciencenet" wie bei uns?)

Soweit die news...

Gruss aus dem evil-crawler-zentrum (irgendjemand sagte doch mal "don't be evil" ;-)

Salve

UL
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: "Overload" Beschwerden

Beitragvon wsb » Mi Jul 02, 2008 5:35 pm

liebel-lab hat geschrieben:Hallo zusammen,
wir haben gerade von der Fh-Hannover angerufen dass ein systematischer "Angriff" von unseren Rechner auf die Fh-Hannover stattfinden würde.
Da die entsprechenden Rechner alle in unserer DMZ stehen und "YaCy" heissen war schnell klar was gemeint war.
@WSB: Hannover ist doch dien Revier, oder? .-)

Also nee, welch arge Unterstellung! ;-)
Die FH-Hannover macht da völlig ihr eigen Ding. Ich bin hauptberuflich im Rechenzentrum der UNI-Hannover, ich habe eine dunkle Ahnung, wo das Gebäude der FH liegt, aber bereits deren Rechenzentrum - so es denn eines gäbe(?) - ist mir unbekannt.

liebel-lab hat geschrieben:A) Natuerlich haben wir den Kollegen aus Hannover erstmal beruhig, der "sein Netz 6h nicht verwenden konnte?" ("Zitat")....
Soweit ich sehen kann hat Yacy einwandfrei funktioniert und sich an die 180 (ppm) gehalten.....
Was uns verwundert ist, dass sich kein Mensch ueber Google beschwert (bei uns z.Bsp teilweise ...100Seiten/Sekunde ), aber alles andere als "Gefahr" gesehen wird...

Dieses Phänomen habe ich auch schon oft "bewundert".
liebel-lab hat geschrieben:Ich sehe leider oft "robot.txt" files welche alles ausser Google filtern...

Und ebenso solche, an die sich alle Robots halten, ausser der von Google, was aber die Betreiber nicht stört. Im Klartext: der Googlebot hält sich nur manchmal an "robot.txt" - und keinen stört es.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: "Overload" Beschwerden

Beitragvon Orbiter » Mi Jul 02, 2008 7:06 pm

der YaCy-Crawler identifiziert sich korrekt als yacybot, unter dem wir auch schon in Foren-Software gelistet sind. Beispielsweise kennt der phpbb2/3 den yacybot. Der User-Agent sieht so aus:
Code: Alles auswählen
"yacybot (" + HttpClient.getSystemOST() +") http://yacy.net/bot.html"

wobei das getSystemOST() so aussieht:
Code: Alles auswählen
System.getProperty("os.arch", "no-os-arch") + " " +
            System.getProperty("os.name", "no-os-name") + " " + System.getProperty("os.version", "no-os-version") +
            "; " + "java " + System.getProperty("java.version", "no-java-version") + "; " + generateLocation();

Dieser System-Bestandteil im String soll vor allem dazu dienen, verschiedene Crawler zu unterscheiden, ohne dass da mit Hilfe einer ID tatsächlich ein bestimmter Peer genannt wird.

Hier ist im Wesentlichen zu sagen das jeder User-Agent String immer auf http://yacy.net/bot.html verweist, und dort wird erklärt worum es sich handelt.

Man könnte auf der Webseite noch erklären dass der yacybot auf 180 ppm begrenzt ist, und das da andere viel schlimmer sind.
Bitte macht mal einen Formulierungsvorschlag (aber nicht zu lang, nur ein Satz sollte dazu reichen, sonst liest das niemand)

Eine Option um die 180 ppm nach unten zu begrenzen würde ich einbauen. Wo würdet ihr die Option gerne sehen? Beim Crawl-Start würde sich das auf nur den einen Crawl auswirken. Ansonsten global für den Peer irgendwo anders? Oder gar global für alle Peers in einem Netz?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "Overload" Beschwerden

Beitragvon Lotus » Mi Jul 02, 2008 7:39 pm

yacybot has limited speed
YaCy fetchs a maximum of 180 pages per minute.

Als letzten Abschnitt. Ohne Überschrift fällt es mir schwer zu entscheiden wohin.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: "Overload" Beschwerden

Beitragvon Huppi » Mi Jul 02, 2008 7:42 pm

Vielleicht setzen wir einen Standardwert zunächst auf 50PPM? Damit sollte die grobe Panik ja schon einmal vermeidbar sein. Später dann konfigurierbar für jeden einzelnen Crawl?

Das Posititive an der Sache: man sieht jetzt wirklich, daß YaCy viel, viel leistungsfähiger geworden ist ;-)
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: "Overload" Beschwerden

Beitragvon Orbiter » Mi Jul 02, 2008 7:54 pm

ehrlich gesagt geht mir das Thema ein bisschen an die Nerven. Geht der Crawler zu langsam, heisst es YaCy sei langsam. Geht er zu schnell, ist er böse. Lucene macht 1000-6000 ppm, ob Nutch beim Crawlen ein Balancing macht weiss ich nicht. Egal wo man jetzt die Begrenzung hin setzt: YaCy bleibt weit unter den Möglichkeiten, ich schaffe mit meinem Notebook bei einer Intranet-Indexierung 900 PPM.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "Overload" Beschwerden

Beitragvon wsb » Mi Jul 02, 2008 8:21 pm

Orbiter hat geschrieben:ehrlich gesagt geht mir das Thema ein bisschen an die Nerven. Geht der Crawler zu langsam, heisst es YaCy sei langsam. Geht er zu schnell, ist er böse. Lucene macht 1000-6000 ppm, ob Nutch beim Crawlen ein Balancing macht weiss ich nicht. Egal wo man jetzt die Begrenzung hin setzt: YaCy bleibt weit unter den Möglichkeiten, ich schaffe mit meinem Notebook bei einer Intranet-Indexierung 900 PPM.

Macht yacy denn ein Balancing? Nutch tut das (meines Wissens) und macht nicht mehr als 60 PPM, aber PRO SERVER! Wenn Nutch also 10 parallel crawlt, dann bringt das richtig was.

Sind die 180 PPM bei yacy denn auch PRO SERVER oder generell? Pro Server scheints mir arg viel, generell zu wenig.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: "Overload" Beschwerden

Beitragvon Orbiter » Mi Jul 02, 2008 8:24 pm

Klar macht YaCy ein Balancing. Die 180 PPM sind pro server. Warum ist das zu viel? das sind 3 Seiten pro Sekunde, das ist doch nicht wirklich viel. Oder?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "Overload" Beschwerden

Beitragvon miTreD » Mi Jul 02, 2008 8:32 pm

Orbiter hat geschrieben:das sind 3 Seiten pro Sekunde, das ist doch nicht wirklich viel. Oder?
Da hängt schlicht und ergreifend vom Inhalt ab. Statische Seiten sollten kein Problem sein. Dynamische Inhalte mit Datenbank, PHP etc. können hier durchaus problematisch werden.
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: "Overload" Beschwerden

Beitragvon MikeS » Mi Jul 02, 2008 8:43 pm

Äh, Leute... gutes Benehmen für einen Robot ist pro Site maximal ein Zugriff alle 15 Sekunden. Alles was schneller ist, wird als "unfreundlich" angesehen. Denkt bitte auch mal daran, dass Yacy nicht der einzigste Robot ist. Und wenn da zufällig mal 10 Robots gleichzeitig mit 3 Seiten/s auf einer Site rumcrawlen würden...

Allgemein sollte eine 15 Sekunden Verzögerung einen Robot außer bei sehr umfangreichen Sites nicht ausbremsen. Sind immer noch 5760 Abfragen pro Tag oder rund 170.000 pro Monat. Und es gibt soooo viele Sites, dass man da einfach nur die Gesamtleistung des Crawlers möglichst gleichmäßig zu verteilen braucht um fast automatisch die 15 Sekunden Abstand einzuhalten.
MikeS
 
Beiträge: 88
Registriert: Mo Feb 25, 2008 6:30 pm

Re: "Overload" Beschwerden

Beitragvon wsb » Do Jul 03, 2008 5:10 am

MikeS hat geschrieben:Äh, Leute... gutes Benehmen für einen Robot ist pro Site maximal ein Zugriff alle 15 Sekunden. Alles was schneller ist, wird als "unfreundlich" angesehen. Denkt bitte auch mal daran, dass Yacy nicht der einzigste Robot ist. Und wenn da zufällig mal 10 Robots gleichzeitig mit 3 Seiten/s auf einer Site rumcrawlen würden...

Allgemein sollte eine 15 Sekunden Verzögerung einen Robot außer bei sehr umfangreichen Sites nicht ausbremsen. Sind immer noch 5760 Abfragen pro Tag

Das hiesse aber, dass man Sites mit mehr als 5760 Webseiten nicht komplett tagesaktuell crawlen KANN. Oder Sites mit ca. 20.000 Seiten dauern fast 4 Tage zum Crawlen - nee, DAS ist zu langsam.

Wer das unbedingt WILL, dass seine Site so langsam gecrawlt wird, kann ja in die robots.txt ein "crawl-delay" reinschreiben. An das sich der Googlebot übrigens nicht hält (und das stört auch niemanden).

Ich denke eine Seite pro Sekunde (60PPM) ist ein sinnvoller Wert, das schaffen auch Menschen locker. Das MUSS ein Server abkönnen. Auch die derzeitigen 180 PPM sind noch "im grünen Bereich". Ein Schnellklicker schafft auch 3 Seiten pro Sekunde.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: "Overload" Beschwerden

Beitragvon Orbiter » Do Jul 03, 2008 8:41 am

letztens hat hier jemand im Forum Tests von YaCy-Stresstests mit 10 Suchanfragen pro Sekunde durchgeführt, und das hat funktioniert. Bei normalen Webseitenabrufen (und auch wenn die dann aus einem CMS mit Datenbank hinten dran kommen) ist ja wohl erheblich weniger Aufwand notwendig als ein Durchführen einer Suche. Insofern müssten sogar 10 Seiten pro Sekunde = 600 PPM noch im Rahmen des erlaubten liegen. Mir liegt ja sehr viel daran dass YaCy keine schlechte Presse kriegt, und daher habe ich das Limit ja schon auf 180 PPM gesetzt. Das finde ich technisch ohne weiteres machbar: ein Server der ansonsten keine Anfragen bekommt kann das ohne weiteres ab, und ein Server der ansonsten 10 Anfragen pro Sekunde bekommt kann ja wohl durch die 3 weiteren auch nicht aus dem Tritt gebracht werden. Insofern halte ich diese extrem niedrigen PPM-Zahlen (4!) milde gesagt mittelalterlich. Und auch bei 60 PPM bin ich mir nicht sicher ob das wirklich zeitgemäß ist.

Ich schlage mal vor ich setzte das Default wieder auf 120 PPM und baue eine Option ein sodass jeder das beliebig runter setzten kann. Weil ich aber glaube das YaCy sich inzwischen wirklich lanweilt, sollten remote crawls gleichzeitig auch erlaubt sein, wenn die indexing Queue nicht voll ist. Sonst hat beispielsweise Urban nix von seinen vielen Rechnern im Cluster.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "Overload" Beschwerden

Beitragvon liebel-lab » Do Jul 03, 2008 10:09 am

..was habe ich nur angestellt: Das alte Thema wieder schoen aufgewaermt :-)

Also noch ein paar infos meinerseits. Ich denke wir sollten das nicht zu ernst nehmen. Auf die eine Beschwerde (die zweite insgesamt) kommen mindestens
3 Größenordnungen an Maschinen die mit 180ppm kein Problem haben. wir haben hier auch mal einen Test laufen lassen. Ein "default" XAMPP ...eine normale 2 Dual-Core...alles Kindergeburtstag. ...180 voll ok....
Vorschlag1: Jedes System hat Rauschen....sofern die Beschwerden unter 1% bleiben würde ich das für legitim halten.
Vorschlag2:
*Scherzmodus*:downloadlink auf die bot seite: "willst du nicht dass wir mit Verstärkung wieder kommen, installiere dein eigenes Yacy und mach mit :-D

@Mike: wow 1 crawl/15seconds für gutes Benehmen...moment das macht bei Google...sagen wir 12 Mrd Seiten...aeh...ui...."don,t be evil" :-) ...
Ne im Ernst...die Diskussion ob 1/15 sec oder 180 ppm kann keine lösung mit einem Wert haben. Dem einen zu schnell dem anderen zu langsam.
unsere server haben ca 490.000 Seiten...you do the math...
Ich finde eine google Lösung die genau sondiert wie schnell der server antworten kann nicht schlecht.....langsam anfangen ..und dann langsam gas geben...

....im gleichen zug kann der crawler ja auch die aktualistaet der seiten notieren und den Suchbaum pfiffig erweitern...ja ich weiss ...das waere dann wieder eine overlord lösung....ich denke einfach mal laut ueber das sciencenet (und das waere dann ein neuer thread) :-) ...

Bis bald und gruss aus der KIT-DOS Zone....

UL
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: "Overload" Beschwerden

Beitragvon MikeS » Do Jul 03, 2008 10:50 am

wsb hat geschrieben:Das hiesse aber, dass man Sites mit mehr als 5760 Webseiten nicht komplett tagesaktuell crawlen KANN. Oder Sites mit ca. 20.000 Seiten dauern fast 4 Tage zum Crawlen - nee, DAS ist zu langsam.

Wer das unbedingt WILL, dass seine Site so langsam gecrawlt wird, kann ja in die robots.txt ein "crawl-delay" reinschreiben. An das sich der Googlebot übrigens nicht hält (und das stört auch niemanden).

Ich denke eine Seite pro Sekunde (60PPM) ist ein sinnvoller Wert, das schaffen auch Menschen locker. Das MUSS ein Server abkönnen. Auch die derzeitigen 180 PPM sind noch "im grünen Bereich". Ein Schnellklicker schafft auch 3 Seiten pro Sekunde.


Das Problem ist, dass eine 1 Seite/s bei einem Menschen problemlos akzeptiert wird. Bei einem Robot würden jedoch viele Serverbetreiber in so einem Fall Amok laufen.

Bei so gut wie keiner Website ist es NÖTIG mehr als 5000 Seiten pro Tag zu crawlen. Selbst bei Nachrichtenseiten oder Foren ändern sich doch kaum mehr als 100 Seiten pro Tag. Bei einer Nachrichtenseite reicht es dann jeden Tag die Homepage zu crawlen und die neu hinzu gekommenen Seiten. Bei Foren ist es etwas aufwendiger, aber auch da kommt man mit 5000 Seiten pro Tag locker aus. Der Crawler muss halt nur intelligent genug sein um zu erkennen was er crawlt.

Was "crawl-delay" angeht: Das ist primär dafür gedacht, dass ein Server-Betreiber darüber einem Robot erlauben kann SCHNELLER zu crawlen, als der Robot dies von sich aus tun würde.

@liebel-lab: Ich glaube, Du hast mich mißverstanden. Die 15 Sekunden Pause gelten pro Server, nicht für alle zusammen genommen. Niemand hindert Dich daran gleichzeitig von 1000 Servern jeweils eine Seite zu holen. Nur bitte nicht öfter als alle 15 Sekunden pro Server.

Was die 490.000 Seiten angeht: Alle auf einer Subdomain? Selbst wenn ja. crawl-delay=5 in die robots.txt und innerhalb eines Monats kann dann jeder Robot da durch.

Ein Robot, der langsam über jede Site geht, hat auch den Vorteil, dass er von Spam-Domains nicht zu viele Seiten einsammelt.

@Orbiter: Es ist ein Unterschied, ob man seinen EIGENEN Server mit 10 Abfragen/s belastet oder einen FREMDEN. Bei einem fremden Server wird sowas allgemein als unfreundlich angesehen. Ich weiss, dass da mit zweierlei Mass gemessen wird und die Leute Google vieles durchgehen lassen, was bei anderen Robots einen Aufschrei verursachen würde. Ich habe vor ein paar Tagen sogar irgendwo gelesen, dass die ersten Webmaster anfangen Yahoo-Slurp auszusperren, weil Yahoo Ihnen trotz heftigem Crawlen zu wenig Besucher einbringt. Halte ich für eine blödsinnige Einstellung, aber so sind die Leute nunmal. Und wenn man eine Alternative zu den großen Suchmaschinen sein möchte, sollte man mit den Webmastern freundlich umgehen, denn man ist auf deren Wohlwollen angewiesen.

Bedenkt bitte alle, dass Yacy im Moment insgesamt relativ wenige Seiten crawlt (im Vergleich zu Google, Yahoo und MSN). Wenn ich das richtig einschätze, dann wird das gesamte Yacy Netzwerk wohl kaum mehr als 5-10 Tausend PPM crawlen. Und das sind "nur" 432 Millionen Seiten im Monat. Wenn mal das ganze Web monatlich gecrawlt wird, dann wäre das rund 100 Mal so viel. Da würde dann auch wesentlich mehr als nur das Hundertfache an Beschwerden kommen, weil dann auch auf die einzelnen Server viel mehr Traffic entfällt. Sicher, die meisten Leute schauen so gut wie nie in ihre Logfiles, aber die wenigen die es tun, sind dann umso lauter mit ihren Beschwerden. Jetzt geht Yacy bei den meisten im Rauschen unter, aber wenn wirklich irgendwann mal 100x so viel gecrawlt wird...
MikeS
 
Beiträge: 88
Registriert: Mo Feb 25, 2008 6:30 pm

Re: "Overload" Beschwerden

Beitragvon Orbiter » Do Jul 03, 2008 2:18 pm

auf meinem Notebook kann YaCy während einem intranet-Indexieren die Seiten, die dabei gezogen werden, mit der gleichen YaCy-Instanz und dem eigenen File-Server liefern. Obwohl der dann bei 900 PPM indexiert liefert YaCy gleichzeitig die Seiten mit 900 PPM aus. Mir kann kein Webmaster erzählen das sein apache bei 900 Seiten pro Minute auch nur sieht das der sich anstrengen muss. Das sind meine Messwerte und eine Beschwerde über ein Ziehen von 180 Seiten/Minute hat was mit Psychologie und dem Ego des Webmasters zu tun. Deswegen führe ich hier keine Kastrationen durch.

Und trotzdem: um einen Konsens herbeizuführen habe ich nun das maximale PPM pro Domain auf 120 gesetzt, also maximal 2 Seiten pro Sekunde und Domain. Damit YaCy sich dabei nicht langweilt macht er jetzt auch remote Crawls während einem local crawl, das war bislang ausgeschlossen. Das 'Langweilen' wird daran erkannt, dass die Indexing-Queue nur halb gefüllt ist.

Für alle die das nicht wollen:
- remote indexing wie gehabt in Netzwerkeinstellungen ausschalten
- neue Konfigurationsmethode für die domain-Deltas benutzen, die ist nun in PerformanceQueues. Da steht nun eine '500' bei dem Delta, wer langsamer Crawlen will (beispielsweise nur 4 Seiten pro Minute) stellt da eine 15000 ein (15 Sekunden minimum Delay)
alles drin in SVN 4966

Jetzt warte ich mal gespannt auf die nächste Meldung 'YaCy crawlt nicht schnell genug!' :x
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste