YaCy && externe Platte && crawlen = ☠

was weder zu YaCy noch zum Thema Suchmaschinen gehört

YaCy && externe Platte && crawlen = ☠

Beitragvon datengrab » Mo Mai 05, 2008 4:23 pm

Nachdem es jetzt meine vierte externe Platte gefressen hat scheint es mir als erwiesen:
YaCy erzeugt beim crawlen zu viel Last für eine externe Platte. Das Problem schein Überhitzung zu sein. Ich hatte vor längerer Zeit ja schon Probleme, das yacy nie stabil bei mir lief und es mir immer wieder die Datenbank zerlegte. Auch gabe es immer mal wieder Plattenausfälle, die sich aber durch aus und wieder einschalten beheben ließen. Damals hatte ich gefrustet aufgegeben.

Nun hatte ich mir vor rund einem halben Jahr zwei neue Platten (Samsung HD161HJ) mit externen Gehäusen nur für yacy zugelegt. Irgendwie kann ich von diesem Projekt einfach nicht lassen ;) Bis vor wenigen Tagen lief auch soweit alles einwandfrei. Dann fielen die Platten sporadisch im wechsel aus. Mal die eine, mal die andere. Da merkte ich dann das die Gehäuse recht warm wurden. Also Platten raus aus dem Gehäuse und offen laufen lassen. Doch für die eine Platte kommt derweil jede Hilfe zu spät. Diese schaltet sich auch bei sehr wenig Last jetzt bereits nach wenigen Stunden von selbst ab. Ein Blick in die Spezifikation zeigte mir jetzt, das die Platte im Betriebe maximal 60° werden darf. Das ist bei der Last die yacy bei crawlen erzeugt utopisch.

Das nennt man jetzt glaube ich Lehrgeld. Jetzt heißt es erst einmal Platten finden, die mehr Hitze vertragen und diese dann am besten auch noch kühlen.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon miTreD » Mo Mai 05, 2008 6:48 pm

Das trifft sich gut, mir hat's Vorgestern meine interne YaCy-Platte zerlegt. Kann allerdings kein Temperaturproblem gewesen sein. Neben der Temperatur könnte aber auch die hohe Laufleistung zusammen mit starker Beanspruchung die Lebensdauer schnell verkürzen.
datengrab hat geschrieben:YaCy erzeugt beim crawlen zu viel Last für eine externe Platte.
Ich hatte diese Vermutung auch schon mal, hab' aber kein Geld investiert um das zu untersuchen. Mir hat's damals nur eine externe Platte zerlegt. Bin also jetzt in Summe schon bei zwei Platten.
datengrab hat geschrieben:Das nennt man jetzt glaube ich Lehrgeld.
Stimmt, ist ja aber noch Garantie drauf :-)
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon datengrab » Mo Mai 05, 2008 7:04 pm

miTreD hat geschrieben:
datengrab hat geschrieben:Das nennt man jetzt glaube ich Lehrgeld.

Stimmt, ist ja aber noch Garantie drauf :-)

Dank smart ist es für die ein leichtes festzustellen, das die Platte überhitzt ist. Folglich nix Garantie...
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon Low012 » Mo Mai 05, 2008 9:26 pm

Hmmm, ich hätte hier eine alte 40GB-Platte und ein externes Gehäuse mit ein- und ausschaltbarem Lüfter rumliegen, mit denen ich mal ausprobieren könnte, ob YaCy sie zerstören kann. :twisted: Andererseits habe ich keine zweite Platte, die ich intern quälen könnte, um einen Vergleich zu haben.

Aber woran könnte es liegen, dass externe Platte anfälliger sind als interne? Die Platten haben natürlich im PC-Gehäuse mehr Platz drumrum, was vielleicht zu weniger Wärmestau führen kann. Oder werden sie durch die Datenübertragung per USB irgendwie mehr belastet? Mehr Bewegungen der Mechanik aus irgendeinem Grund? Da kenne ich mich absolut nicht aus.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon Orbiter » Mo Mai 05, 2008 9:48 pm

mal ne doofe Frage: warum sollte eine Platte wo der head steppt (= Last durch Applikation, bsp. YaCy) so ungemein viel mehr Hitze produzieren als ohne Last? Gibts dazu Leistungsdaten (Hitzentwicklung bei Zugriff/ohne Zugriff)? Solche Effekte müssten doch bekannt sein.

Ich habe auch eine externe Platte die bei Dauerbetrieb höllisch heiss wird, ohne YaCy drauf. Ich finde eine Platte die den Hitzetod stirbt ist eine Fehlkonstruktion. Garantiefall.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon datengrab » Mo Mai 05, 2008 10:07 pm

Am USB-Anschluß kann es eigentlich nicht liegen. Dieser würde ja wenn überhaupt bremsen und somit die Platte schonen. Das gleiche Problem hatte ich mit meinen beiden externen FireWire-Platten ja auch schon.

Wärmestau wird wahrscheinlich das Problem sein. Die von mir verwendeten Gehäuse (von den USB-Platten) sind zwar massiv Alu und hätten damit eine optimale Wärmeabfuhr, aber sie liegen halt nicht direkt an der Platte an. Der dazwischen liegende Luftspalt dürfte sich tödlich auswirken. Momentan bin ich am überlegen die nächsten Platten offen liegen zu lassen und mit großen Kühlkörpern zu bekleben. Mal schaun, vieleicht bekomme ich ja sogar noch ein Thermometer integriert ;)

Warum speziell YaCy die Platten extrem belastet, dürften die extrem häufigen Bewegungen des Schreib-Lesekopfs sein. Dabei dürfte weit mehr Energie verbraten werden, als beim einfachen Platten-Stapel-in-Bewegung-halten.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon Orbiter » Mo Mai 05, 2008 10:33 pm

datengrab hat geschrieben: die extrem häufigen Bewegungen des Schreib-Lesekopfs sein. Dabei dürfte weit mehr Energie verbraten werden, als beim einfachen Platten-Stapel-in-Bewegung-halten.

das meine ich: gibts dazu Leistungsdaten die belegen, das Platten mit mehr schreib/lese - Vorgängen mehr Energie verbraten als solche die nur rund laufen? Nicht mit Notebook-Platten verwechseln die runter fahren.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon datengrab » Mo Mai 05, 2008 10:42 pm

Die einzigen realen Daten die ich gefunden habe stammen aus dieser google-Studie: http://research.google.com/archive/disk_failures.pdf Demnach müsten sich grade junge Platten genau entgegengesetzt verhalten und bei hohen Temperaturen seltener ausfallen. Hingegen schreiben die Hersteller im Einklang Maximaltemperaturen von von zwischen 40 und 60 Grad vor. Und das Problem dürfte sein, das speziell eine meiner Platten weit über 60 Grad geworden sein dürfte.

Das was mir halt zu denken gibt ist, das ich mit den Platten alles tun kann: Programme drauf kompilieren, Filme und Musik von konsumieren, usw.; alles kein Problem. Sobald ich yacy einige Zeit drauf laufen lasse: Game over.

Ich hatte auch schon die Dateisystem in Verdacht, das sie mit solchen Datenlasten nicht zurecht kommen. Deswegen hatte ich schon ext3, xfs, ocfs und jfs ausprobiert; immer das selbe Problem.

Irgendwie bin ich momentan ein wenig ratlos :cry:

Nachtrag zu den Kopfbewegungen: bisher nix gefunden, werde aber weiter schauen.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon datengrab » Mo Mai 05, 2008 11:10 pm

Bei Consumerplatten werden anscheinend allgemein keine Angaben zur Aufnahme bei Last (seek) gemacht. Es gibt immer nur irgendwelche mittelwerte.

Bei Platten für den Professionellen Gebrauch gibt es zwar auch nur "typische" Werte, aber zu mindest wird zwischen Last und Ruhe unterschieden. Bei Hitatchi Platten liegt die Lastaufnahme ca. 50% höher als die bei Ruhe, bei Samsungplatten sind es etwa 25%. Alles in allem kommen die alle nicht über "typische" 10 Watt bei Last hinaus.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon MikeS » Mo Mai 05, 2008 11:25 pm

datengrab hat geschrieben:Ich hatte auch schon die Dateisystem in Verdacht, das sie mit solchen Datenlasten nicht zurecht kommen. Deswegen hatte ich schon ext3, xfs, ocfs und jfs ausprobiert; immer das selbe Problem.


Mal abseits von Linux: Windows NT hatte auf NTFS bis einschließlich NT 4.0 Probleme wenn sehr schnell viele Dateien erzeugt und wieder gelöscht wurden. Da gab es dann reproduzierbar einen BlueScreen. Und zwar unabhängig von der Hardware. Ich habe das mit IDE und SCSI Platten gesehen. Windows Server 2003 scheint dieses Problem nicht mehr zu haben.

Generell habe ich mit internen Platten nie irgendwelche Probleme gehabt, auch wenn sie extrem belastet wurden. Müssen halt nur im Luftstrom sitzen. Wärmer als 50 Grad sollten Platten besser nicht werden.

Externe Platten würde ich für High-Performance Anwendungen nicht einsetzen. Jedenfalls nicht mit USB oder Firewire. Da fehlt einfach die Performance. ESATA hingegen könnte gehen, das habe ich aber noch nicht probiert.
MikeS
 
Beiträge: 88
Registriert: Mo Feb 25, 2008 6:30 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon DanielR » Di Mai 06, 2008 7:32 am

MikeS hat geschrieben:Generell habe ich mit internen Platten nie irgendwelche Probleme gehabt, auch wenn sie extrem belastet wurden. Müssen halt nur im Luftstrom sitzen. Wärmer als 50 Grad sollten Platten besser nicht werden.

Ja, das kenne ich. Mein Laptop ist auch so gut gebaut, dass die Hälfte mit der Festplatte ein guter Handwärmer ist ;) Da kommt dann gelegntlich mal eine SMART-Meldung: "55° - Limit überschritten". Seit ich meinen Laptopkühler habe (Zalman NZ1000) ist meine Platte 10° kühler! Gibt mir ein viel besseres Gefühl :)
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon Lotus » Di Mai 06, 2008 1:25 pm

Bei WD reicht die Verlustleistungsdifferenz beim Zugriff von 0,3 bis 3 W, wie ich auf die schnelle gesichtet habe.

Bei externen Festplatten kommt es sicher auch durch die fehlende Verschraubung zum trägen Gehäuse zu mehr Eigenbewegung beim Zugriff und einer höheren Beanspruchung durch Repositionierung der Leseköpfe.
Wer bei Amazon Rezensionen zu externen Festplatten liest, wird auch feststellen dass diese anfälliger für Defekte scheinen. Ich vermute, dass YaCy ohnehin vorhandene Fehler (scheinbar in der Konstruktion) nur schneller sichtbar werden lässt.

Ich schalte meine externe Festplatte nur zum Backup an. ;)
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon datengrab » Di Mai 06, 2008 4:40 pm

Die Möglichkeit interne Platten zu nutzen habe ich leider nicht, da in meinen Rechnern kein Platz für zusätzliche Platten sind.

Ich habe mir jetzt auf jeden Fall erst einmal ein paar richtig fette Kühlkörper besort, die ich auf den Platten montieren werde. Und wenn das dann nicht reicht werde ich noch einen Lüfter dran bauen. So leicht gebe ich nicht auf :twisted:
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon miTreD » Di Mai 06, 2008 5:08 pm

Ich bin der festen Überzeugung, dass der USB/Firewire YaCy nicht ausbremsen. Monitored mal über längere Zeit eure Platten, da geht fast nix drüber. Wir haben nur ziemlich viele Zugriffe, aber die dürften USB/Firewire verkraften. Platten für den 0815-Endverbraucher sind IMHO einfach nicht für die durch YaCy erzeugte Last konstruiert. Das hat auch nix mit Hitzetot zu tun. OK, vielleicht bei ungünstig zu verbauenden externen Gehäusen. Die gehen einfach kaputt, weil YaCy es schafft sie mehrfach stärker zu belasten als der "normale" Anwender für den sie gedacht sind.
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon datengrab » Di Mai 06, 2008 5:12 pm

Einzig beim Indexneuaufbau dürfte sich USB/FireWire bremsend auswirken, da dort viele Daten sequentiel gelesen werden. Beim normalen Betrieb sollte der Flaschenhals die Zugriffszeit der Platte sein.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon Huppi » Di Mai 06, 2008 9:25 pm

Platten für den 0815-Endverbraucher sind IMHO einfach nicht für die durch YaCy erzeugte Last konstruiert

Also bei 5 internen Samsung 200GB HDDs (IDE) sind bisher keine Probleme aufgetaucht. Externe über USB hatte ich bisher nicht im Dauerbetrieb.

Letztendlich werden 0815-Einschränkungen bedeuten müssen, daß der Crawler viel stärker gebremst werden muß, damit YaCy keine Hardware-Schäden angelastet werden. Aber wie gesagt: bei mir gibt es bisher keinerlei HDD-Ausfälle.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon Low012 » Mi Mai 07, 2008 9:42 pm

Auf meinem Peer scheint sich auch eine Platte verabschiedet zu haben. Ich habe eben den Support des Rechenzentrums kontaktiert, mal schauen, ob es wirklich so ist. Wenn ja, hat die Platte grade mal 4 Monate gehalten. Muss natürlich nicht an YaCy liegen und eine Platte in einem ordentlichen Server muss ja schon ein bisschen Last vertragen. :twisted:

Mal sehen, was sich retten lässt. Der Server hat 2 Platten, die ich als RAID1 laufen habe. Wenn der Aufwand zu groß ist, mache ich aber alles platt und fange nochmal von vorne an. Hoffentlich liegt der Fehler nicht bei mir, das wäre peinlich. :oops:

edit: Yeah! Nur 20 Minuten hat es gedauert, bis eine neue Platte eingebaut war und das nach 22h!
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon datengrab » Fr Mai 16, 2008 10:03 pm

Nach den neusten Ereignissen bin ich mir nicht mehr wirklich sicher, ob die ganze Geschichte auf hardware-Probleme zurück zu führen ist.

Diesmal crashte ein einzelner Peer und zog alle anderen Peers die auf dem selben Rechner liefen innerhalb kurzer Zeit (1-2 Minuten) mit runter.

Was war passiert? Ich hatte drei Peer auf dem Selben Rechner laufen. Diese griffen auf drei externe USB-Festplatten zu (zwei Peers auf der einer, und einer auf die anderen beiden). Als ich auf einem der Peers einen Crawl fortsetzte, stellte sich dieser nach etwa zwei Stunden tot. Vom System aus war die von diesem Peer genutzte Festplatte nicht mehr zu erreichen (Fehlermeldung irgendwas mit "dead device"). Kurz darauf starb auch die Festplatte der anderen Peers, obwohl diese Peers außer DHT nichts zu tun hatten.

Meiner Vermutung geht jetzt dahin, das der USB-Stack von Linux nicht mit dieser Datenmenge / den Zugriffszyklen klar kommt und die Festplatten einfach abschaltet. Hier habe ich dann aber gar keine Ahnung mehr, wie ich das debuggen könnte. Weiß jemand wie man hier an brauchbare Informationen kommt?
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon DanielR » Sa Mai 17, 2008 1:02 am

evtl. macht auch der USB-Host-Controller probleme? Evtl "nur" Temperatur? Du belastest den dann ja schon ganz ordentlich ;)
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon miTreD » Sa Mai 17, 2008 12:56 pm

datengrab hat geschrieben:Meiner Vermutung geht jetzt dahin, das der USB-Stack von Linux nicht mit dieser Datenmenge / den Zugriffszyklen klar kommt und die Festplatten einfach abschaltet. Hier habe ich dann aber gar keine Ahnung mehr, wie ich das debuggen könnte. Weiß jemand wie man hier an brauchbare Informationen kommt?
Ich kann über USB keine großen Datenmengen bewegen. Irgendwann knallts immer und dmesg ist voll solcher Meldungen:
usb 1-3: reset high speed USB device using ehci_hcd and address 2
Ich habe unendlich lange im Netz gesucht und keine Lösung gefunden. Was ein wenig Abhilfe schafft und nicht merklich auf die Performance geht ist das reduzieren der Blockgröße (was auch immer das ist ...) für dieses USB-Gerät. Wenn man es nicht üner udev macht, muss jedesmall neu geändert werden.
Code: Alles auswählen
echo 32 >/sys/block/sda/device/max_sectors

Ich geb' Dir mal meine Systemspezifikation, vielleicht finden wir ja auch 'ne Gemeinsamkeit.
Code: Alles auswählen
# uname -a
Linux tsws01 2.6.24-gentoo-r8 #1 Wed May 14 18:35:21 CEST 2008 i686 AMD Athlon(tm) XP 3200+ AuthenticAMD GNU/Linux

# lsmod | grep -e usb -e hcd
usbhid                 21760  0
usbmouse                3840  0
uhci_hcd               18700  0
ehci_hcd               24716  0

# lspci
00:00.0 Host bridge: VIA Technologies, Inc. VT8377 [KT400/KT600 AGP] Host Bridge (rev 80)
00:01.0 PCI bridge: VIA Technologies, Inc. VT8237 PCI Bridge
00:0a.0 Multimedia audio controller: Fortemedia, Inc Xwave QS3000A [FM801] (rev b2)
00:0a.1 Input device controller: Fortemedia, Inc Xwave QS3000A [FM801 game port] (rev b2)
00:0f.0 RAID bus controller: VIA Technologies, Inc. VIA VT6420 SATA RAID Controller (rev 80)
00:0f.1 IDE interface: VIA Technologies, Inc. VT82C586A/B/VT82C686/A/B/VT823x/A/C PIPC Bus Master IDE (rev 06)
00:10.0 USB Controller: VIA Technologies, Inc. VT82xxxxx UHCI USB 1.1 Controller (rev 81)
00:10.1 USB Controller: VIA Technologies, Inc. VT82xxxxx UHCI USB 1.1 Controller (rev 81)
00:10.2 USB Controller: VIA Technologies, Inc. VT82xxxxx UHCI USB 1.1 Controller (rev 81)
00:10.3 USB Controller: VIA Technologies, Inc. VT82xxxxx UHCI USB 1.1 Controller (rev 81)
00:10.4 USB Controller: VIA Technologies, Inc. USB 2.0 (rev 86)
00:11.0 ISA bridge: VIA Technologies, Inc. VT8237 ISA bridge [KT600/K8T800/K8T890 South]
00:12.0 Ethernet controller: VIA Technologies, Inc. VT6102 [Rhine-II] (rev 78)
01:00.0 VGA compatible controller: nVidia Corporation NV34 [GeForce FX 5200] (rev a1)
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon datengrab » Sa Mai 17, 2008 4:10 pm

miTreD hat geschrieben:Was ein wenig Abhilfe schafft und nicht merklich auf die Performance geht ist das reduzieren der Blockgröße (was auch immer das ist ...) für dieses USB-Gerät. Wenn man es nicht üner udev macht, muss jedesmall neu geändert werden.
Code: Alles auswählen
echo 32 >/sys/block/sda/device/max_sectors

Über die Suche nach /sys/block/sda/device/max_sectors bin ich darauf gestoßen, das anscheinend noch einige Leute mehr das Problem gleiche Probleme haben. Meist wird empfohlen max_sectors auf 128 (teilweise auch auf 64) zu setzen, weil es wohl einige Chipsets gibt, die mit größeren Blöcken Probleme haben.

Ich habe mal eine udev-rule dafür gebaut (als z999_blocksize.rules in /etc/udev/rules.d/ anlegen)
Code: Alles auswählen
ACTION=="add",KERNEL=="sd*",RUN+="/usr/bin/block-size-setter"

und das script, das max_sectors anpasst (als block-size-setter in /usr/bin anlegen und ausführbar machen)
Code: Alles auswählen
#!/bin/sh
DEV=$(echo $DEVPATH | awk -F/ '{print $3}')
echo 64 > /sys/block/${DEV}/device/max_sectors

Dies setzt bei allen SCSI-Platten - und somit auch allen externen Platten - max_sectors auf 64.

Ich lasse meine Peers jetzt mal mit maximaler Leistung laufen und warte wanns mal wieder knalllt :twisted:
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon datengrab » Sa Mai 24, 2008 12:23 pm

Derweil läuft mein System weitestgehend stabil. Zum einen hat die Änderung von max_sectors etwas gebracht, zum anderen aber auch eine Änderung meines Crawlverhaltens. Nach einiger Suche bin ich darauf gestoßen, das der Linux-USB-Stack Probleme damit hat wenn sehr viel durcheinander gelesen und geschrieben wird. Auf Grund dessen mache ich es jetzt so, das ich meinen Peer mit maximaler Leistung crawlen lasse, bis der Wort-cache zu etwa 90% voll ist. Dann schalte ich den crawler ab und warte bis der Cache wieder leer ist. Damit läufts weitestgehend stabil. Da das ewige Umschalten von Hand natürlich lästig ist werde ich bei gelegenheit meinen watchdog dahingehend anpassen, das er dies automatisieren kann.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon rzkh » Do Jun 05, 2008 12:31 am

MikeS hat geschrieben:Mal abseits von Linux: Windows NT hatte auf NTFS bis einschließlich NT 4.0 Probleme wenn sehr schnell viele Dateien erzeugt und wieder gelöscht wurden. Da gab es dann reproduzierbar einen BlueScreen. Und zwar unabhängig von der Hardware. Ich habe das mit IDE und SCSI Platten gesehen. Windows Server 2003 scheint dieses Problem nicht mehr zu haben.


Die Speicherverwaltung und das Filesystem von NT war ja auch extrem grottig. Bei 2k3 ists ja nur noch grottig. Microsoft hat immerhin das extrem wegbekommen ;-)

Allgemein zum Plattenproblem: Consumerplatten haben gerne auch Aktuatoren zweiter Wahl für die Bewegung der Köpfe. Und da gerade bei Yacy das Kopfbewegen die Haupttätigkeit der Platte ist -> Peng. Temperatur sollte auch etwas niedrig gehalten werden. Um 50 Grad (gemessen auf der Oberfläche, und nicht mit einem 20Euro-Schätzeisen vom Conrad) sollte Obergrenze sein. Notfalls 2.5" Platten nehmen. Sind etwas langsamer, aber auch bis 60 Grad spezifiziert (habe keine Zahlen für Seek-Dauerwerte).

Und die Urban-Legend, dass teure SCSI-Platten nicht anders sind als billige IDE-Platten: kann ich nur widerlegen, siehe auch die Vorposter. Eine SCSI-Platte mit 15.000Umdrehungen für den Server wird man mit Yacy nicht so schnell klein kriegen.

Letzte Abhilfe: 10 kleine Platten am RAID-Controller. Ist eh sinnvoller, und macht auch schönere Geräusche ;-)

-h
rzkh
 
Beiträge: 127
Registriert: Do Aug 16, 2007 10:25 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon Orbiter » Do Jun 05, 2008 8:30 am

wo du schon von 'urban legend' sprichst: während dem Linuxtag habe ich den Standhelfern (abends beim Bier..) kund getan dass ich glaube die Crawlgeschwindigkeit auf 6000 PPM erhöhen zu können; 900 PPM schafft mein Notebook schon im Intranet-Indexieren. Das geht nur mit weit weniger seek-Zeit, und dazu habe ich ein fast fertiges Konzept in der Schublade. Was ich also damit sagen will: die Plattenbeanspruchung ist mir sehr bewust und nehme ich nicht langfristig in Kauf. Braucht halt nur alles ein wenig Zeit bis es fertig ist, ich muss ja auch hin und wieder mal 'richtig' arbeiten.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon MikeS » Do Jun 05, 2008 9:18 am

Seeks sind auch bei mir in der Software immer die größte Performance-Bremse. Meiner Erfahrung nach ist die beste Methode die Dateien in "kleine" Häppchen einzuteilen, die man separat bearbeiten kann. Dann jeweils eine Datei komplett ins RAM laden, dort die Änderungen vornehmen und dann komplett rausschreiben. Hat natürlich den Nachteil sehr speicherhungrig zu sein, ist aber von der Performance her unschlagbar.

Manchmal hilft es auch schon feste Datenstrukturen auf mehrere Dateien aufzuteilen und zwar nicht ein Datensatz hier und einer hier, sondern alle Felder einer Table in eine Datei und andere Felder in eine andere. Das hilft enorm bei Datenstrukturen die einen großen unveränderlichen Teil haben (z.B. die URL) und einen kleinen veränderlichen Teil (wurde diese URL schon gecrawlt und wenn ja, wo stehen die Informationen dazu). In Verbindung mit dem oben erwähnten ins RAM laden wirkt das wahre Wunder.

Der folgende Aufsatz hat mir einige interessante Anregungen gegeben: IRLbot: Scaling to 6 Billion Pages and Beyond
MikeS
 
Beiträge: 88
Registriert: Mo Feb 25, 2008 6:30 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon Orbiter » Do Jun 05, 2008 10:44 am

MikeS hat geschrieben:Seeks sind auch bei mir in der Software immer die größte Performance-Bremse. Meiner Erfahrung nach ist die beste Methode die Dateien in "kleine" Häppchen einzuteilen, die man separat bearbeiten kann. Dann jeweils eine Datei komplett ins RAM laden, dort die Änderungen vornehmen und dann komplett rausschreiben. Hat natürlich den Nachteil sehr speicherhungrig zu sein, ist aber von der Performance her unschlagbar.

In die Richtung gehts, und die Datenstruktur für die o.a. 6000 PPM ist auch schon fertig: der neue RWI-Cache. Ist 20-fach schneller im Laden und Speichern als der alte, haben wir seit geschätzt 2 Monaten. Fehlt eigentlich nur noch eine Organisation, die ich 'spalten und falten' nenne.

MikeS hat geschrieben:Manchmal hilft es auch schon feste Datenstrukturen auf mehrere Dateien aufzuteilen und zwar nicht ein Datensatz hier und einer hier, sondern alle Felder einer Table in eine Datei und andere Felder in eine andere.

Das hatten wir in kelondroFlex und zwar deswegen damit man den Index schneller laden kann. Habe ich ja wieder verworfen und durch kelondroEco abgelöst, weil das Aufteilen in 2 Dateien die Anzahl der seeks verdoppelt, man muss ja je lookups in jede Datei machen. kelondroEco hat damit die seeks halbiert und die Geschwindigkeit verdoppelt, aber das Index-Laden geht ein wenig langsamer.

MikeS hat geschrieben:Das hilft enorm bei Datenstrukturen die einen großen unveränderlichen Teil haben (z.B. die URL) und einen kleinen veränderlichen Teil (wurde diese URL schon gecrawlt und wenn ja, wo stehen die Informationen dazu). In Verbindung mit dem oben erwähnten ins RAM laden wirkt das wahre Wunder.

Das 'veränderliche' in diesem Kontext wird bei YaCy dadurch abgebildet, das es verschiedene Stacks sind. Das geht flott und bereitet keine Probleme.

MikeS hat geschrieben:Der folgende Aufsatz hat mir einige interessante Anregungen gegeben: IRLbot: Scaling to 6 Billion Pages and Beyond

Brr, man kann manche Dinge auch wirklich verkomplizieren. URL-Doublecheck geht in YaCy so das man einen URL-Hash berechnet, und diesen checkt. Da der Hash ja auch Hauptschlüssel für den Index ist, und dieser im RAM ist, geht der Double-Check sehr einfach und performant und ohne überhaupt irgendein IO.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon datengrab » Do Jun 05, 2008 11:32 am

Wie es aussieht hätte dieses Thema wohl "YaCy && externe Platten && crawlen = ☠" heißen müssen. Seit dem ich vor gut einer Woche yacy nur noch auf einer Platte laufen lassen - davor hatte ich die Daten auf mehrere Platte verteilt - habe ich keinerlei Probleme mehr mit der Platte. Das ist momentan noch unterm 2.6.22er Linux Kernel, da die neueren mit der Netzwerkhardware nicht klar kommen.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: YaCy && externe Platte && crawlen = ☠

Beitragvon r.bircher » So Sep 21, 2008 7:36 am

Hallo zusammen

Ich möchte mal fragen, wie die Erfahrungserte nun mit externen Platten sind. Da ich lokal eher platzmangel habe würde ich mir gerne so eine anschaffen, und YaCy dort drauf laufen lassen. Ich denke da an eine LaCie, die sind auch gekühlt Mit relativ Hoher Crawling aktivität explodieren die Daten nur so. Ich wäre froh um Feedback

Gruss Raphael
r.bircher
 
Beiträge: 36
Registriert: Mo Sep 15, 2008 8:52 pm


Zurück zu Off-Topic

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast