Regionale Server

Ereignisse, Vorschläge und Aktionen

Regionale Server

Beitragvon lisema » Mo Jan 05, 2009 4:23 pm

Moin Moin,

dumme Idee, die man verkaufen kann :)

Folgendes, ich werde mal rumfragen (März- April) ob Behörden etc pp nicht etwas für YaCy locker machen können. Die Idee sind gepflegte (!) regionale Maschinen.

Nehmen wir Niedersachsen als Beispiel. Die Crawlpunkte sind:
- Städte wie hannover.de, hildesheim.de
- Öffentliche Seiten niedersachsen.de
- Bildungsseiten nibis.de
- Unis und Hochschulen

Alles aus der Region Niedersachsen.
Was man dafür braucht ist eine gute Maschine und ein paar freiwillige, die das Pflegen.
Am Besten alle 16 Bundesländer und noch eine Maschine für Bundesangebote. Ich hoffe, dass man von den Behörden sowohl die Server, als auch die Anbindungen kriegt. Was zu beachten ist: Es sollte eine "neutrale" Leitung sein, wenn man mit der IP aus der UNI-Hannover crawled, werden einige Seiten die nur für den IP Bereich der UNI frei sind, lesbar. Die kann keiner extern aufrufen.

Die Pflege dieser Indizes sollte recht einfach sein und mit ein paar Stunden pro Monat erledigt sein, die Crawls sollten tief gehen.
Ich suche deshalb freiwillige, die Lust haben dieses Experiment einmal zu versuchen. Dabei gilt zu beachten: Uni Seiten sind verdammt gross.

Das ganze ist hier erstmal im Forum fixiert, und wird dann nochmal sinnvoll erarbeitet werden.

Neben den Regio Servern würde ich auch gerne einen Commercial Server hochziehen, da sind dann Firmen in der Pflicht. Als weiterer Bereich wären auch Server mit den Kategorien Glauben möglich. Die systematisch die ganzen Evangelischen und Katholischen Webseiten nach und nach abgrasen.

Kommentare dazu? (und nur dazu!)
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Regionale Server

Beitragvon ribbon » Mo Jan 05, 2009 8:23 pm

ich hab hier in dresden mal ne schule angesprochen, aber da wollte auch so nicht wirklich keiner ran, den server dann auch im Medienraum zu machem. Dabei könnten die Schüler dabei gut Linux und Serveradmin lernen. Aber es ist halt schwierig, den Leuten zu sagen, dass so eine Maschine dauerhaft läuft, von denen Sie nicht wissen, was es ist. Der Wikipedia Effekt ist noch nicht eingetreten.. Gib mal Feedback, wenn 5 Server von denen Laufen, was so die Argumente waren..

ansonsten
http://www.bild.de/BILD/digital/technik ... etzen.html
http://www.catholicgoogle.com/
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Regionale Server

Beitragvon dulcedo » Di Jan 06, 2009 7:11 am

Eine Bekannte ist Lehrerin, Grundschule, werde die mal ansprechen, habe nämlich schon einen netten "badischen" Suchindex, der ist nur grade nicht online.
Könnte sie insofern interessieren, da sie YaCy als Websuche in ihrem Blog integriert hat, zumindest hatte sie mich mal danach gefragt.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Regionale Server

Beitragvon lisema » Di Jan 06, 2009 12:19 pm

Genau dulcedo :)

Man sucht sich einen Sponsor für die Hardware und dann einen Ort zum unterstellen mit einer Leitung. Berufsschulen, Gymnasien etc.
Ich denke, dort kann man einiges machen.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Regionale Server

Beitragvon ribbon » Di Jan 06, 2009 10:43 pm

ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Regionale Server

Beitragvon liebel-lab » Mi Jan 07, 2009 8:16 am

also mit dem sciencenet haben wir eigentlich schon gut und gerne die deutschen unis im index. problem ist nach wie vor der nicht-intelligente crawler.
wir können derzeit die scripte fuer den auto-recrawl nur imme rund immer wieder anwerfen, anstatt zu sagen "if older x -> recrawl"...

regionale server: wir versuchen seit einem jahr wenigstens die unis zu motivieren...fehlanzeige...wenn etwas nicht 100% wartungsfrei läuft (noch dazu mit "unbekannter" software) will kaum ein rechenzentrum mensch die verantwortung fuer yacy uebernehmen...
TIPP. jeweils einen enthusiasten / uni gewinnen :-)...dann klappt es...

Wegen bandbreite/platz fuer rechner...jederzeit und gerne hier am KIT
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Regionale Server

Beitragvon lisema » Mi Jan 07, 2009 5:25 pm

liebel-lab hat geschrieben:also mit dem sciencenet haben wir eigentlich schon gut und gerne die deutschen unis im index. problem ist nach wie vor der nicht-intelligente crawler.
wir können derzeit die scripte fuer den auto-recrawl nur imme rund immer wieder anwerfen, anstatt zu sagen "if older x -> recrawl"...


yupp. wobei hier ein local crawl leider auch gerade scheitert, hatte er sich erst ne halbe stunde auf 800 ppm eingeschossen, knickt er nun weg auf 350 ppm. Der Indexer laeuft permanent leer, der Loader liefert nicht schnell genug an. Die Domains in der queue werden anscheinend nicht gut vermischt :(
c2q mit 1 GB RAM fuer yacy, Win32



liebel-lab hat geschrieben:regionale server: wir versuchen seit einem jahr wenigstens die unis zu motivieren...fehlanzeige...wenn etwas nicht 100% wartungsfrei läuft (noch dazu mit "unbekannter" software) will kaum ein rechenzentrum mensch die verantwortung fuer yacy uebernehmen...
TIPP. jeweils einen enthusiasten / uni gewinnen :-)...dann klappt es...


Ich werd mal schauen, wie man Leute aus meinem Umfeld erreicht. Ich denke ein paar kriegt man ran.

liebel-lab hat geschrieben:Wegen bandbreite/platz fuer rechner...jederzeit und gerne hier am KIT


Super danke :)
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Regionale Server

Beitragvon lulabad » Mi Jan 07, 2009 6:57 pm

lisema hat geschrieben:Der Indexer laeuft permanent leer, der Loader liefert nicht schnell genug an.

Die Anzahl der Loader kannst du ja erhöhen.
PerformanceQueues_p.html runterscrollen bis Thread Pool Settings. Dort den Wert Crawler Pool einfach hochstellen. Das ist die Anzahl der Loader.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Regionale Server

Beitragvon lisema » Mi Jan 07, 2009 7:15 pm

300, laeuft leer.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Regionale Server

Beitragvon lulabad » Mi Jan 07, 2009 7:21 pm

lisema hat geschrieben:300, laeuft leer.

:o Okayyyy. Versuch mal 301. :D
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Regionale Server

Beitragvon PCA42 » Mi Jan 07, 2009 8:05 pm

Bekommt bei Windows nicht TCP/IP Probleme, wenn du über 300 Seiten gleichzeitig laden willst? Das sollte meiner Meinung nach eigentlich kontraproduktiv sein. Ich handhabe das auf meinem Peer (zwar unter Linux) andersrum: 4x soviele Indexer wie Loader (derzeit 40 Indexer, 10 Loader). Der schafft, wenn er lostoben darf (eigener Crawl), dann einiges. Hab schon diverse Traffic Mails von Hetzner gehabt, wenn Yacy mal mehr als 2 GB die Stunde gezogen hat. Und das schaff ich sogar manchmal mit Remote-Crawls. 8-)

Wer möchte, dem kann ich ja mal gerne meine Settings zukommen lassen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Regionale Server

Beitragvon lisema » Mi Jan 07, 2009 10:20 pm

PCA42 hat geschrieben:Bekommt bei Windows nicht TCP/IP Probleme, wenn du über 300 Seiten gleichzeitig laden willst?

Win9x ja, NT nein. Siehe Bittorrent.

PCA42 hat geschrieben:Das sollte meiner Meinung nach eigentlich kontraproduktiv sein. Ich handhabe das auf meinem Peer (zwar unter Linux) andersrum: 4x soviele Indexer wie Loader (derzeit 40 Indexer, 10 Loader). Der schafft, wenn er lostoben darf (eigener Crawl), dann einiges. Hab schon diverse Traffic Mails von Hetzner gehabt, wenn Yacy mal mehr als 2 GB die Stunde gezogen hat. Und das schaff ich sogar manchmal mit Remote-Crawls. 8-)


Also, die spitzen lagen bei 1200 ppm indexieren, dh gut 20 Seiten pro Sekunde. Je nach Implementierung gibt es unterschiedliche Szenarien. Bis
1. der Loader nimmt eine Seite und checkt, ob die Domain in den letzten 500 ms schon angefragt wurde -> loader blockiert fuer 500 ms, dh pro Loaderthread sind maximal 2 Seiten pro Sekunde machbar (wenn alles sofort da ist)
2. Die Queue macht das alles und laesst die loader nur noch ausfuehren. In dem Fall braucht man nur noch die Transferzeit zu beruecksichtigen.


Ich gehe davon aus, dass die PreQueue die URLs passend sortiert, haenge ich nun an einem langsamen Server, blockiert der einen Loader, (ich lasse bis 100 MB indexieren) bei 10en kann das sehr fix gehen. (der Crawler hat 3 GB in 30 Min verbraucht, sind etwa 15 Mbit, mit denen ich konstant gezogen habe)

Ein Problem kann bei mir die Prequeue gewesen sein, wenn die nicht gut durchmischte Seiten hat, koennen die Loader auch nichts machen. Dann kann ich damit nur X Prequeue Plaetze mehr gewinnen. Bei einer Prequeue von 1000 reichte die ja nur eine Minute.

Muss ich mir mal anschauen :)

PCA42 hat geschrieben:Wer möchte, dem kann ich ja mal gerne meine Settings zukommen lassen.


Immer gerne :)

Unabhängig davon finde ich den Einbruch beim Crawlen schon drastisch. Und ich glaube auch nicht, dass ich der einzige bin mit Zugang zu solch schnellen Maschinen. Da ist auf alle Fälle performance technisch viel zu holen, sehr viel.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Regionale Server

Beitragvon tara » Mi Jan 07, 2009 10:37 pm

PCA42 hat geschrieben:Wer möchte, dem kann ich ja mal gerne meine Settings zukommen lassen.


Mach doch am besten eine Seite im Wiki dazu. Dann haben alle etwas davon.
tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm

Re: Regionale Server

Beitragvon Orbiter » Mi Jan 07, 2009 11:19 pm

lisema hat geschrieben:Der Indexer laeuft permanent leer, der Loader liefert nicht schnell genug an. Die Domains in der queue werden anscheinend nicht gut vermischt :(

Das wird das Problem sein. Wenn der Balancer aufgrund schlechter Reihenfolge eine Zwangspause macht, dann schreibt er das ins Log. Guck bitte mal ob du da entsprechende Einträge hast.

lisema hat geschrieben:Ich gehe davon aus, dass die PreQueue die URLs passend sortiert

Das macht er nicht, das macht auch der Balancer. Die PreQueue macht etwas ganz banales: den Double-Check. Es hat sich herausgestellt, dass dieser Test beim Verarbeiten der Webseiten völlig unnötig aufgehalten hat, und daher hatte ich das so gemacht, das erst mal alle neu gefundenen URLs ganz ohne Kontrolle in die PreQueue kommen. Dort werden sie dann gegen alle URL-DBs getestet: die LURL-DB (geladene URLs), Error-URLs, URLs in den Loader Queues (local, remote), was dem Balancer und dessen DB entspricht. Früher gab es da einiges IO, jetzt gar nicht mehr. Früher musste für jede URL auch ein DNS-Lookup gemacht werden, um zu sehen ob es eine lokale oder globale URL ist, und daher ist das Ding auch multithreaded, damit es den DNS besser auslastet. Ausserdem geht das Ergebnis dann in den DNS-Cache, was dem Crawler wiederum hilft. Momentan wird kein DNS-Eintrag von der PreQueue gezogen, und ich weiss nicht warum das so ist.

in der Summe: der Balancer scheint noch verbesserungswürdig zu sein. Kannst ja mal gucken ob dir was auffällt.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Regionale Server

Beitragvon lisema » Mi Jan 07, 2009 11:36 pm

Orbiter hat geschrieben:
lisema hat geschrieben:Der Indexer laeuft permanent leer, der Loader liefert nicht schnell genug an. Die Domains in der queue werden anscheinend nicht gut vermischt :(

Das wird das Problem sein. Wenn der Balancer aufgrund schlechter Reihenfolge eine Zwangspause macht, dann schreibt er das ins Log. Guck bitte mal ob du da entsprechende Einträge hast.


Mach ich sobald ich mal wieder an der Maschine bin.

Orbiter hat geschrieben:Die PreQueue macht etwas ganz banales: den Double-Check. Momentan wird kein DNS-Eintrag von der PreQueue gezogen, und ich weiss nicht warum das so ist.

in der Summe: der Balancer scheint noch verbesserungswürdig zu sein. Kannst ja mal gucken ob dir was auffällt.


Okie ich hätte da auch schon Ideen. Zum einen Loader mit HTTP 1.1 und offenen Verbindungen, dann kann man von dem gleichen Host mehrere URLs ziehen und vielleicht auch sehr effektiv die Wartezeit einbauen. Dazu würde jeder Loader Thread intern eine zu bearbeitende Domain kriegen und einen eigenen Buffer. So kann man zwei Dinge realisieren, zum einen einen optimierten Zugriff auf eine Domain (wird vermutlich die gleichen Worte enthalten, deshalb schön für die Datenbank und ihr Wachstum, des weiteren bevorzugen von Domains und deren Abarbeitung) oder möglichst gute Durchmischung mit vielen Servern, wo man breit abarbeitet.

Aber alles mal anschauen :)
Bei einem zweiten Gedanken hat das tiefe Vorgehen den Vorteil, dass man ressourcenschonender arbeiten kann, mit N Threads. Erst wenn der Hauptthread schneller als alle 2 Sekunden eine Seite abfragt, braucht man einen zweiten Starten etc.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Regionale Server

Beitragvon Lotus » Do Jan 08, 2009 7:40 pm

PCA42 hat geschrieben:Bekommt bei Windows nicht TCP/IP Probleme, wenn du über 300 Seiten gleichzeitig laden willst?

Ich glaube du meinst das TCP Connect Limit:
http://www.microsoft.com/technet/suppor ... &LCID=1033
Bei XP sind das 10, bei Vista je nach Version unterschiedlich. Bei Server weiß ich nicht. Einmal erreicht werden alle neuen TCP Verbindungen nur noch laangsam abgearbeitet. Das führt bei einigen Programmen durchaus zum Timeout. Es gibt unoffizielle Patches die das Limit aufheben.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron