Dateisysteme/Nameskonventionen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Dateisysteme/Nameskonventionen

Beitragvon dulcedo » Do Dez 11, 2008 12:06 pm

Ich spiele hier mit verschiedenen Test-peers um Datenbanken aufzubauen und virgin-peers damit zu "füttern". Dabei ist mir folgendes aufgefallen wenn es um verschiedene OS / Dateisysteme geht:

-Die original Linux Dateistruktur verwendet Gross/Kleinschreibung in Verzeichnisstrukturen und erzeugt Datenfiles in unbegrenzter Höhe wenn erlaubt.
-Das w32 Paket ebenfalls unbegrenzte Grösse falls NTFS, ansonsten wählt man kleinere Einzeldateien, denke beim erzwingen eines files > 4gb dürfte das w32-system wohl abkacken, noch nicht getestet.

Aufgefallen ist mir das alles durch Backups auf verschiedene Dateisysteme oder den Austausch kompletter Installationen zwischen unterschiedlichen Betriebssystemen, prinzipiell scheint das ja zu gehen, bis auf die uneinheitlichen Namens- und Grössenbeschränkungen der einzelnen Dateisysteme.

Praktisches Beispiel: ein mittelgrosser Linux-Peer (ca10mio links, ext3) wird auf ein externes (Netz)laufwerk kopiert:
auf NTFS/EXT3: funktioniert
auf FAT32: funktioniert bei Einzeldateien < 4gb
auf alte Samba(1)-Freigabe: gross-kleinschreibung im Dateisystem geht verloren

Wie gesagt ich rede von Kopieren der Dateien oder OS-wechsel, nicht dem Neuaufbau eines Peers.

Könnte man sich evtl Gedanken über eine einheitliche Bennnung und den Umgang mit grossen Dateien machen, die in Grundzügen mit allen wichtigen 'Dateisystemen funktioniert? Also z.b. grundsätzlich 2gb oder 4gb-chunks und einheitlich nur Kleinschreibung in der Verzeichnisstruktur? Vielleicht erschliesst sich mir der Sinn dieser Schreibweise nicht aber ich denke es sind einfach gewachsene Strukturen.
Ist ja prima wenn denn schon der reine Datenaustausch zwischen den OS an sich, so problemlos klappt, bennenne ich z.b. die kopierten Dateien und Verzeichnisse anhand einer "virgin" vz-struktur händisch wieder um dann funktioniert alles wieder...
Backups sind übrigens auch davon betroffen solang man einfach das YaCy Verzeichnis kopiert und nicht gz'ed, und nimmt man z.b. eine externe FAT-HD zum Sichern dann sind grossen Dateien nicht dabei, spricht man Quelle oder Ziel über Samba an so sieht das sauber gesichert aus, aber beim Rücksichern kommt das böse erwachen wenn sämtliche Dateinamen kleingeschrieben, mag yacy überhaupt nicht, legt dann einfach alles grossgeschrieben neu an (Linux).

Müsste man wohl einmal den Datenbestand grundsätzlich in chunks splitten (dateien >2gb), und die Dateinamen anpassen, kann nicht abschätzen was das für ein Aufwand wäre, der Benutzerfreudlichkeit wärs aber sicher dienlich, welcher Gelegenheitsuser beschäftigt sich schon mit diesen nervigen Einschränkungen der verschiedenen Dateisysteme...
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Dateisysteme/Nameskonventionen

Beitragvon Orbiter » Do Dez 11, 2008 2:04 pm

da ich immer nur auf einem Mac entwickele wurde ich bislang von den Mängeln eines Windows-Dateisystems verschont. Ich muss zugeben das ich auch nie über 4GB-Grenzen nachgedacht habe.

Übrigens Microsoft auch nicht: der kostenlose Search Server 2008 Express kann überhaupt nur Datenbanken bis 4GB Größe anlegen:
http://www.heise.de/newsticker/Microsof ... ung/119782

Die momentan verwendeten Datenstrukturen, die so groß werden können, lassen sich nicht so schnell ersetzten. Ich bin aber momentan dran eine neue Datenstruktur für den Index zu entwickeln, der auf den BLOBHeaps beruhen wird. Diese Dinger werden ja jetzt schon für den HTCache eingesetzt, und dort werden die Dateigrößen auch auf unter 2GB beschränkt. Entsprechend werde ich sehen das es Grenzen gibt bei neuen Datenstrukturen für einen neuen Index. Das wird es geben, weil ich den RWI-versand überarbeiten werde (muss sehr viel schneller werden), und dabei ganze Files verschickt werden, und dabei dann neue Datenstrukuren entworfen werden.

Das heisst: wird sich alles ändern, aber nur allmählich. Vielleicht erledigt sich das Thema dann von alleine wenn niemand mehr diese Steampunk-OS Systeme, die keine richtigen Dateisysteme haben, verwendet.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Dateisysteme/Nameskonventionen

Beitragvon Lotus » Do Dez 11, 2008 5:04 pm

Die 4GB sind nur für FAT relevant. Das ist mit Win9x/ME als Standard ausgestorben und vegetiert heutzutage üblicherweise noch auf USB-Sticks und anderen portablen Speichermedien sofern sie nicht neu formatiert wurden.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Dateisysteme/Nameskonventionen

Beitragvon dulcedo » Do Dez 11, 2008 7:48 pm

Orbiter hat geschrieben:da ich immer nur auf einem Mac entwickele wurde ich bislang von den Mängeln eines Windows-Dateisystems verschont. Ich muss zugeben das ich auch nie über 4GB-Grenzen nachgedacht habe.

...

Das heisst: wird sich alles ändern, aber nur allmählich. Vielleicht erledigt sich das Thema dann von alleine wenn niemand mehr diese Steampunk-OS Systeme, die keine richtigen Dateisysteme haben, verwendet.


Auch zu Lotus: natürlich sind diese Dateisysteme Schrott, ihr müsst halt nur damit rechnen dass mindestens die Hälfte eurer Anwender nix anderes kennen oder benutzen wollen, warum auch immer.
Und wer in Umgebungen mit kunterbunt gemischten OS mal schnell von 5 Rechnern ein Backup ziehen muss ist halt mit einer FAT32-extern am schnellsten und bequemsten...

Richtig ärgerlich ist eigentlich das mit den Dateinamen, gibts einen bestimmten Grund warum die Struktur so gemischt gross/klein ist?
Habe jetzt 3 wöchentliche backups wegschmeissen dürfen weil bein reinen Kopieren unter Ubuntu/Samba die Namen verstümmelt werden. gz hat nämlich das problem dass ich das riesenarchiv erstrecht nicht gut handeln kann, und wenn korrupt alles hinüber.
Natürlich kann ich ein Script schreiben das mir zu grosse Dateien beim Backup aufsplittet, aber macht das Otto Normaluser? Der hat einen Core2Duo / 2gb unterm Schreibtisch und tippt den ganzen Tag seine mails oder chattet, meint ihr der beschäftigt seine Ressourcen mit was sinnvollem wenn er über sowas nachdenken muss?
4gb wird zwar erst bei einigen millionen Links kritisch, aber grade diese modernen Büro-PCs laden doch grade dazu ein den peer wachsen zu lassen. Der dulcedo-peer ist genau so eine, bischen getunte kiste, wird 2mal am tag zum videos rendern eingesetzt, solange kriegt yacy lowest, den Rest der Zeit crawlt er seine bookmarks und macht mit bis zu 150ppm remote crawls. Habe ihm spasseshalber vor einigen tagen eine alte dsl1000er leitung alleine spendiert die noch parallel läuft, die Bandbreite reicht völlig aus (1024/128 down/up)...
Ein paar 100 solche Kisten, die fast schon in jeder Wohnung stehn, dürften einen ziemlich mächtigen Index aufbauen können der nichtmal sonderlich gepflegt werden muss, wer will baut seine blacklisten aus (das müsste auch noch einfacher werden).
In die Wohnung stellen sich die Leute das aber nur wenn sie nicht vorher einen Kurs im Umgehen von Peinlichlkeiten miserabel zusammengeschusterter Betriebssysteme absolvieren müssen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Dateisysteme/Nameskonventionen

Beitragvon Lotus » Do Dez 11, 2008 8:34 pm

Mein Post war eher als Information zu sehen. Es ist gut die 4GB Grenze zu unterstützen. Schwerwiegender finde ich jedoch den Einfluss auf Groß/Kleinschreibung. Das würde doch auch trotz konsequenter Umsetzung zu Fehlern führen wenn bei der Sicherung/Rücksicherung die Namen falsch eingespielt werden (z.B. groß statt klein)?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Dateisysteme/Nameskonventionen

Beitragvon dulcedo » Fr Dez 12, 2008 7:32 am

Lotus, ich meinte es ja auch nur informativ, mir ist es halt beim alltäglichen Datenschaufeln aufgefallen, und denke kann nicht schaden diese kleine "Grate" zumindest zu dokumentieren, wenn man sie nicht abfeilt.
Sowas kann einem nämlich wirklich zur Verzweiflung brinegn wenn irgendwo mittendrin ein Dateiname nicht passt und erstmal gar nichts mehr geht, ohne Ahnung warum...

Die Datenstrukturen sind so herrlich optimiert, habe noch nie eine derart grosse Datenbank auf einem consumer-system gesehen die, ohne paar kleinere Hakler zwischendurch seit 2 Monaten störungsfrei und performant läuft. Da tun solche Kleinigkeiten irgendwie weh, ist wie mein schickes Netbook an dem mich der UMTS-Stick stört, der steht so blöde seitlich raus...

So wird das "Monster" trotz hochkomplexer Abläufe trotzdem für Laien benutzbar und das Ziel sollte man bei aller faszinierenden Technik doch nicht vergessen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Dateisysteme/Nameskonventionen

Beitragvon dulcedo » Mo Mär 09, 2009 12:52 pm

Ich muss das Thema nochmal aufgreifen, ich habe einen Peer unter Windows mit der im Anhang abgebildeten Verzeichnisstruktur, der läuft auch unter Win (XP,W7 / 32,64) problemlos.
Möchte ich den aber nach Linux migrieren dann findet er teilweise seine Verzeichnisse nicht und legt sie grossgeschrieben neu an.
Dass man DATA gross schreiben muss (unter Linux) habe ich schon raus aber welche Dateinamen unterhalb noch?

Bzw. kann man das Problem nicht mal grundsätzlich lösen? Warum es unter Win geht kann ich mir schon denken, MS-Krücke, aber wie kann man dieses durcheinander verhindern?
Muss irgendwann im November mal durch eine Kopieraktion entstanden sein, da alles weiterhin unter Win lief mir da aber keine Gedanken gemacht. Nun brauch ich aber Linux für den Peer, weil der Speicher mit 4GB begrenzt ist und ich damit auch unter Win64 maximal 1,5 für Java nutzen kann. Egal ob JRE64 oder 32.
Dateianhänge
yacy_win.png
Win Verzeichnisstruktur
yacy_win.png (187.72 KiB) 729-mal betrachtet
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Dateisysteme/Nameskonventionen

Beitragvon Low012 » Mo Mär 09, 2009 1:11 pm

Ich bin mir sicher, dass es "TEXT" statt "text" heißen muss.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Dateisysteme/Nameskonventionen

Beitragvon bluumi » Mo Mär 09, 2009 5:27 pm

dulcedo hat geschrieben: weil der Speicher mit 4GB begrenzt ist und ich damit auch unter Win64 maximal 1,5 für Java nutzen kann. Egal ob JRE64 oder 32.

OT: Also mein 4Gbyte Win7 Rechner kann 1.8Gbyte oder auch mehr dem Java zuweisen, wenn ich JRE64 und Win7-64 nutze.
Oder ist das in den neuen Yacy Versionen nicht mehr erlaubt?
Zuletzt geändert von bluumi am Mo Mär 09, 2009 5:31 pm, insgesamt 1-mal geändert.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Dateisysteme/Nameskonventionen

Beitragvon Orbiter » Mo Mär 09, 2009 5:30 pm

in YaCy gibts keine Begrenzung, wofür auch? Wenn es eine Grenze gibt, kommt die vom Java, oder dem OS.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Dateisysteme/Nameskonventionen

Beitragvon dulcedo » Di Mär 10, 2009 2:43 pm

thq, werde ich versuchen, möchte nur nicht alle Files auch noch umbenennen müssen.

bluumi: seltsam bei mir ist dass ich unter Win7/64 eigentlich nur 750MB für BS und Firefox belege, wenn dann die JVM auf das maximum von 1,5GB fährt er hoch und zeigt in der Speicherverwaltung auch noch das fehlende mit paar Abzügen als frei an. Nach einer Weile Betrieb dann aber alles belegt obwohl die JVM nichts zusätzlich belegt, kann sie ja garnicht. AVIRA und SVCHOST brauchen zusammen nochmal 100MB für die Verbindungen aber mehr läuft nicht. Wo ist der Rest dann?
Aber werde nun mal auf Linux umstellen, muss ich sowieso für diese index-Sache, weil 2GB für Java ist unter Win nicht zu schaffen. Ich schaffe es nicht.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Dateisysteme/Nameskonventionen

Beitragvon thq » Di Mär 10, 2009 2:57 pm

dulcedo hat geschrieben:thq, werde ich versuchen, möchte nur nicht alle Files auch noch umbenennen müssen.
Also irgendwas muss ich hier verpasst haben ! ;)
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Dateisysteme/Nameskonventionen

Beitragvon dulcedo » Di Mär 10, 2009 9:35 pm

präemptives multitasking mit altersbedingten nebeneffekten ;-)
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron