Überflüssige URLs bereinigen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Überflüssige URLs bereinigen

Beitragvon PCA42 » Fr Mär 06, 2009 3:48 pm

Wenn wir jetzt mit der Partitionierung arbeiten: können wir vielleicht mal die bestehenden Peers hinsichtlich ihrer "überflüssigen" URLs bereinigen? Meinetwegen kann solch ein Lauf bei mir auch mal einen Tag dauern und muss auch nicht übers Interface zu erreichen sein. Wie bei der URL-Analyse eine Klasse dafür stricken, die über die Kommandozeile erreichbar ist.

So wie ich das mitbekommen hab, ist Orbiter eh im Augenblick dabei, eine neue Datenstruktur für die URL-Datenbanken zu finden. Wenn das beim Umstellen auf die neue Struktur mit erledigt wird, wird man ja sehen, wie der Platzbedarf für die URLs dann aussieht.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: DHT-Verteilung

Beitragvon Orbiter » Fr Mär 06, 2009 4:08 pm

die feststellung, welche URLs referenziert werden, ist fast nicht machbar. Dazu müssen alle RWIs durch gegangen werden (wie beim collection Indexaufbau), und alle Referenzen in eine DB geschreiben werden. Das wird beim Indexaufbau ja nicht gemacht, da wird nur nach den Wörtern geguckt, nich nach den URL-Referenzen die da dran hängen. Ein Aufbau einer solchen ist-benutzt-url DB wäre noch um Größenurdnungen höher als der Indexneuaufbau. Und dann müssten alle URLs der URL-db durchgegangen werden, und auf ein Mapping in der erstellten Referenzendatenbank gecheckt werden. Das wäre die Hölle. Da lese ich dann hier mehr Beschwerden über den Prozess als über das Vorhandensein der URLs.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: DHT-Verteilung

Beitragvon PCA42 » Fr Mär 06, 2009 4:51 pm

Falls das nicht deutlich geworden ist: das soll für den Benutzer eine einmalige, manuell aufzurufende Sache sein. Das soll nicht automatisch bei jedem Start von Yacy mitlaufen.

So stell ich mir das vor:
1. URL-Datenbanken laden (sollte als Programm-Code vorhanden sein)
2. RWIs der Reihe nach durchgehen, bei jeder URL ein "used=true" (Code müsste geschrieben werden -> es ist mir bewußt, dass das zeitaufwendig ist)
3. URLs mit used=true in neue Datei schreiben (sollte größenteils als Programmcode vorhanden sein)

Ich könnte heulen, dass ich keine Ahnung von Java hab. Sonst würd ich das selbst schreiben.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: DHT-Verteilung

Beitragvon Orbiter » Mo Mär 09, 2009 11:47 am

der Punkt 2 in dem von dir beschriebenen Prozess ist nun in SVN 5687 vorhanden. Um das auszuführen, das folgende Kommando ausführen:

java -Xmx1000m -cp classes de.anomic.data.URLAnalysis -incollection DATA/INDEX/freeworld/TEXT/RICOLLECTION used.dump

in der Datei used.dump stehen dann die Referenzen zu den URLs, die vorhanden sind, sowie ein Zähler wieviele Referenzen dies sind. Jetzt fehlt noch ein 'Durchgehen der URLs'. Bis das läuft könnt ihr schon mal testen ob das Kommando wie es oben steht bei euch geht. Wenn ihr eine große Collection habt, entsprechend den Speicher höher stellen (-Xmx2000m), denn das ganze schreibt eine Tabelle nur im RAM. Pro URL sollte das 16 bytes belegen, wenn man ein Umkopieren des Indexes hinzu nimmt sind es 32 bytes. Bei 1 Mio URL-Referenzen macht das 32MB, bei 50 Mio dann 1.6 GB. Müsste also gerade so passen, bei den dicksten Peers.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: DHT-Verteilung

Beitragvon daburna » Mo Mär 09, 2009 7:59 pm

Das dauert schon ein bisschen. Bei mir läuft es nun schon seit fast vier Stunden und bisher hab ich folgende Meldung erhalten:

DEBUG: 4 deleted entries in collection.04.0028.02.00.kca

DEBUG: 1 deleted entries in collection.04.0028.04.00.kca

DEBUG: 13 deleted entries in collection.04.0028.00.00.kca
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: DHT-Verteilung

Beitragvon Orbiter » Mo Mär 09, 2009 10:02 pm

ich hatte da auch so ein logging gebaut mit laufender Statusangabe, aber das scheint wohl nicht zu funktionieren. Konnte das heute mittag nicht testen weil ich da wo ich das gemacht habe nur 500 Links drin hatte, da war das halt sofort durch. Ich gucke mal.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: DHT-Verteilung

Beitragvon daburna » Mo Mär 09, 2009 10:17 pm

Kann ich das ohne Schaden anzurichten, abbrechen?
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: DHT-Verteilung

Beitragvon Orbiter » Mo Mär 09, 2009 11:33 pm

ja, kannst du. Das ganze macht keine Schreiboperationen, nur das used.dump wird am Ende geschrieben.

Hab jetzt das Logging und die Startup-Zeit verbessert, SVN 5690
Ansonsten sollte die vorherige Version auch ok gewesen sein.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: DHT-Verteilung

Beitragvon bluumi » Di Mär 10, 2009 9:35 am

Also meines läuft nun seit 24h. Zwischen 70-90% CPU-Last, 2GB Ram zugewiesen, davon etwa 250-290Mbyte in Verwendung, und ziemlich wenig Consolen Ausgabe :)
C:\YACY>java -Xmx2000m -cp classes de.anomic.data.URLAnalysis -incollection DATA/INDEX/freeworld/TEXT/RICOLLECTION used.dump

DEBUG: 427 deleted entries in collection.04.0028.00.00.kca
DEBUG: 56 deleted entries in collection.04.0028.01.00.kca
DEBUG: 237 deleted entries in collection.04.0028.02.00.kca
DEBUG: 143 deleted entries in collection.04.0028.03.00.kca


Der Peer kennt rund 30-35Mio Links. Wenn ich die obigen Dateinamen ansehe, ahne ich "nichts gutes" :-D Obige 4 Files sind 8.1Gbyte gross, die nächsten 4 Files sind zusammen 50Gbyte gross, das könnte also noch Tage dauern, etwa 6 Tage :-D
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Überflüssige URLs bereinigen

Beitragvon Orbiter » Di Mär 10, 2009 2:44 pm

da bin ich wenigstens mit dem Coden der nächsten Tool schneller :P

Das nächste Tool ist nun vorhanden: man kann nun ein Diff zwischen dem dump mit den Referenzen und den Hashes in der URL-DB machen. Dazu folgendes aufrufen:

java -Xmx1000m -cp classes de.anomic.data.URLAnalysis -diffurlcol DATA/INDEX/freeworld/TEXT used.dump diffurlcol.dump

danach hat man den diff in der Datei diffurlcol.dump
Ist in SVN 5692

als nächstes fehlen noch 2 Features:
- Exportieren der URLs, die von dem Dump referenziert werden
- Löschen der URLs

Aber mit SVN 5692 kann man wenigstens schon mal sehen, wieviele URLs denn tatsächlich nicht referenziert werden.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Überflüssige URLs bereinigen

Beitragvon PCA42 » Di Mär 10, 2009 5:20 pm

Orbiter hat geschrieben:da bin ich wenigstens mit dem Coden der nächsten Tool schneller :P

Bei läuft das seit 17 (CPU-)Stunden. Er hat auch schon eine Collection (1,7G) durch. Fehlen "nur" noch 42 GB. Ist das eigentlich Multicore-tauglich? Falls ja lohnt es sich für mich bald, die 70 GB Daten vom Peer zu packen und auf meinen heimischen PC herunterzuladen. Der hat dann mindestens vier statt zwei Kerne wie der Peer.

Ich hoffe, der zweite Schritt ist schneller. Sonst muss ich aufpassen, das wir nicht bei Yacy 1.0 sind, bevor der Lauf durch ist.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Überflüssige URLs bereinigen

Beitragvon PCA42 » Di Mär 10, 2009 5:36 pm

Mir ist grad noch eine Idee gekommen, wie das vom Ablauf her vereinfacht werden kann. Vielleicht ist das auch im Durchlauf schneller.

Bisher werden ja die Collections ausgelesen und dann die neuen URL-Hashes immer dazu genommen. Die dabei zu durchsuchende Datenmenge sollte anfangs schnell ansteigen und dann auf einem hohen Niveau bleiben. Wäre es nicht vorteilhafter, die bekannten URL-Hashes aus den URL-DBs zu laden (wie beim normalen Yacy-Start) und dann aus dieser Ausgangsmenge die in den RWIs verwendeten URL-Hashes zu löschen? Übrig bleiben sollten dann direkt die nicht mehr verwendeten Hashes. Hier sollte die zu durchsuchende Datenmenge schnell abnehmen.

Die jetzt beim Durchlauf ermittelte Anzahl der Vorkommen sollte doch zunächst uninteressant für die Bereinigung der URL-DBs sein.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Überflüssige URLs bereinigen

Beitragvon bluumi » Di Mär 10, 2009 6:11 pm

Code: Alles auswählen
10.03.2009 12:08:59 de.anomic.kelondro.table.AbstractRecords deletedHandles SCHWERWIEGEND: KELONDRO WARNING C:\YACY\DATA\INDEX\freeworld\TEXT\RICOLLECTION\collection.04.0028.04.00.kca: seek position 37366498838696/911689329 out of file size 5150424020/125663 after 55 iterations; patched wrong node

Ich nehm mal an, da wird kein Grund zur Sorge nötig sein?
PCA42 hat geschrieben:Ist das eigentlich Multicore-tauglich?

Also 1 Core ist zu 99% ausgelastet, der andere geht rauf und runter, was mich auf die Idee bringt, dass es nicht wirklich multicore nutzt. Ob es von 2 -> 4 dann was bringt wage ich zu bezweifeln. Aber probier es doch einfach :-d :-D
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Überflüssige URLs bereinigen

Beitragvon Orbiter » Di Mär 10, 2009 10:05 pm

PCA42 hat geschrieben:Ich hoffe, der zweite Schritt ist schneller. Sonst muss ich aufpassen, das wir nicht bei Yacy 1.0 sind, bevor der Lauf durch ist.
Orbiter hat geschrieben: Da lese ich dann hier mehr Beschwerden über den Prozess als über das Vorhandensein der URLs.

hab ich es nicht gesagt?

PCA42 hat geschrieben:Bisher werden ja die Collections ausgelesen und dann die neuen URL-Hashes immer dazu genommen. Die dabei zu durchsuchende Datenmenge sollte anfangs schnell ansteigen und dann auf einem hohen Niveau bleiben. Wäre es nicht vorteilhafter, die bekannten URL-Hashes aus den URL-DBs zu laden (wie beim normalen Yacy-Start) und dann aus dieser Ausgangsmenge die in den RWIs verwendeten URL-Hashes zu löschen? Übrig bleiben sollten dann direkt die nicht mehr verwendeten Hashes. Hier sollte die zu durchsuchende Datenmenge schnell abnehmen.

das hört sich nicht schlecht an. Mein momentan einziges Argument dagegen ist, dass die Sache nun schon fertig ist. Ist ausserdem ein schönes Spielfeld für Performance-Tests, die dann allen anderen Algorithmen auch zugute kommen könnten. Ich denke nochmal darüber nach ob ich das auch noch mache.

PCA42 hat geschrieben:Die jetzt beim Durchlauf ermittelte Anzahl der Vorkommen sollte doch zunächst uninteressant für die Bereinigung der URL-DBs sein.

Das ist richtig. Da ich aber die Gelegenheit sah, das zu ermitteln, hab ich es halt mal Probiert. Als Experiment. Vielleicht ist es ja für irgendwas gut. Man weiss wieviele Wörter auf eine URL referenzieren. Können wird das gebrauchen? Vielleich als so ein Maß, welche Wörter man als nächstes per DHT weg schicken sollte, damit man die URLs am besten schnell los wird?

Die letzten Funktionen für das Exportieren und Löschen der URLs sind nun fertig. Ein vollständiger Cleaning-Prozess sähe nun so aus:

java -Xmx1000m -cp classes de.anomic.data.URLAnalysis -incollection DATA/INDEX/freeworld/TEXT/RICOLLECTION used.dump
java -Xmx1000m -cp classes de.anomic.data.URLAnalysis -diffurlcol DATA/INDEX/freeworld/TEXT used.dump diffurlcol.dump
java -Xmx1000m -cp classes de.anomic.data.URLAnalysis -export DATA/INDEX/freeworld/TEXT xml urls.xml diffurlcol.dump
java -Xmx1000m -cp classes de.anomic.data.URLAnalysis -delete DATA/INDEX/freeworld/TEXT diffurlcol.dump

Dabei ist der Export optional. Man kann statt 'xml' auch 'text' oder 'html' schreiben, um andere Formate zu exportieren. Das ruft nun die gleiche Funktion auf, wie das Web-Interface aufruft. Wenn man den letzten Wert diffurlcol.dump weg läßt, wird die gesamte DB exportiert.
SVN 5694

PCA42 hat geschrieben:Ist das eigentlich Multicore-tauglich?

nein. Dort wo ich das implementiert habe, habe ich keinen Zugriff auf eine große URL-DB, da ging das eh einfach schnell. Ich gucke mal, was man machen kann, und zwar so, dass es für den Rest von YaCy auch was bringt.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Überflüssige URLs bereinigen

Beitragvon Lilirasa » Di Mär 10, 2009 11:17 pm

Eine Verständnisfrage ob sich die ganze Sache für mich lohnen würde:

Ich hab also URLS's in der DB welche nicht genutzt, sprich mit keinem Word verbunden sind. Dies wäre für mich nicht weiter tragisch, sofern diese nur Plattenplatz fressen. Lohnenswert würde das Prozedere für mich, wenn YACY danach weniger RAM besetzen würde, denn dieses wird auf dem einen Peer mit 900Mb RAM für YACY regelmässig knapp. Mir ist nicht ganz klar, ob dies der Fall ist?

An dieser Stelle mal ein ganz grosses Lob an Orbiter, welcher viel Zeit in die Entwicklung von Yacy steckt und trotzdem noch Zeit für die Erfüllung von Extrawünschen findet. Ein Danke natürlich auch an alle weiteren Entwickler. Es ist nicht selbstverständlich was ihr hier tut!

Grüsse
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: Überflüssige URLs bereinigen

Beitragvon PCA42 » Mi Mär 11, 2009 5:56 am

Orbiter hat geschrieben:Da lese ich dann hier mehr Beschwerden über den Prozess als über das Vorhandensein der URLs.
hab ich es nicht gesagt?

Das waren keine Beschwerden, das waren nur Ansätze zur Optimierung. ;)

Lilirasa hat geschrieben:Ich hab also URLS's in der DB welche nicht genutzt, sprich mit keinem Word verbunden sind. Dies wäre für mich nicht weiter tragisch, sofern diese nur Plattenplatz fressen. Lohnenswert würde das Prozedere für mich, wenn YACY danach weniger RAM besetzen würde, denn dieses wird auf dem einen Peer mit 900Mb RAM für YACY regelmässig knapp. Mir ist nicht ganz klar, ob dies der Fall ist?

Wenn du unter http://localhost:8080/PerformanceMemory_p.html schaust siehst du, welche Tabellen im RAM gehalten werden. Es werden pro URL 16 Byte benötigt, um die entsprechenden Stellen in den Datenbanken zielsichern anzusteuern. Macht dann also pro 1 Mio überflüssige URLs 16 MB weniger RAM. Und der Vollständigkeit halber: auf Festplatte pro URL 512 Byte, sind also schon 512 MB bei einer Mio URLs zu viel.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Überflüssige URLs bereinigen

Beitragvon soleil » Mi Mär 11, 2009 10:52 pm

Gerade probiere ich das erste Kommando aus (Scannen der collection.index). Der Verlauf ist für mich rätselhaft. Insgesamt habe ich ca. 5,5 Mio RWIs. Der Durchlauf durch die erste Datei, die etwa 1/15 des Platzes beansprucht (800 MB von 12 GB), führt zu folgender Ausgabe:

COLLECTION INDEX REFERENCE COLLECTION startup
COLLECTION INDEX REFERENCE COLLECTION opening partition 0, 0 of 9
11.03.2009 21:31:45 de.anomic.kelondro.table.AbstractRecords$usageControl <init>
WARNUNG: USEDC inconsistency at startup: calculated_used = 4659413, USEDC = 4658836, FREEC = 8, recordsize = 186, file = /media/disk/privat/yacy_v0.72_20090311_5699/DATA/INDEX/freeworld/TEXT/RICOLLECTION/collection.04.0028.00.00.kca
COLLECTION INDEX REFERENCE COLLECTION opened partition 0, initializing iterator

DEBUG: 8 deleted entries in collection.04.0028.00.00.kca
COLLECTION INDEX REFERENCE COLLECTION opened partition 0, starting reference scanning
COLLECTION INDEX REFERENCE COLLECTION scanned 20414 RWI index entries. 11 minutes remaining for this array

...

COLLECTION INDEX REFERENCE COLLECTION scanned 4654187 RWI index entries. 0 minutes remaining for this array

Wenn ich insgesamt nur 5,5 Mio RWIs habe, wie kann ein Bruchteil davon 4,6 Mio ausmachen?

Seltsam geht es dann auch weiter. Die folgende Datei, etwa 3 GB groß, wird unglaublich langsam bearbeitet:

COLLECTION INDEX REFERENCE COLLECTION opening partition 7, 1 of 9
11.03.2009 22:38:08 de.anomic.kelondro.table.AbstractRecords$usageControl <init>
WARNUNG: USEDC inconsistency at startup: calculated_used = 1226, USEDC = 1225, FREEC = 0, recordsize = 2621466, file = /media/disk/privat/yacy_v0.72_20090311_5699/DATA/INDEX/freeworld/TEXT/RICOLLECTION/collection.04.0028.07.00.kca
COLLECTION INDEX REFERENCE COLLECTION opened partition 7, initializing iterator
COLLECTION INDEX REFERENCE COLLECTION opened partition 7, starting reference scanning
COLLECTION INDEX REFERENCE COLLECTION scanned 1 RWI index entries. 867 minutes remaining for this array
COLLECTION INDEX REFERENCE COLLECTION scanned 2 RWI index entries. 841 minutes remaining for this array
COLLECTION INDEX REFERENCE COLLECTION scanned 3 RWI index entries. 1616 minutes remaining for this array
COLLECTION INDEX REFERENCE COLLECTION scanned 4 RWI index entries. 1542 minutes remaining for this array
COLLECTION INDEX REFERENCE COLLECTION scanned 6 RWI index entries. 1715 minutes remaining for this array
COLLECTION INDEX REFERENCE COLLECTION scanned 8 RWI index entries. 1504 minutes remaining for this array

Hm, in der zweiten Datei ist die Recordsize enorm groß. Heißt das, daß es sich hier um Wörter handelt, für die ich in der DHT zuständig bin, und zu denen ich jeweils tausende von URLs speichere? Während in der ersten Datei zu jedem Wort nur eine URL gehört? Hat also doch alles seine Richtigkeit?

Danke für Eure Hilfe.
soleil
 
Beiträge: 22
Registriert: Di Jan 13, 2009 11:36 pm

Re: Überflüssige URLs bereinigen

Beitragvon Orbiter » Mi Mär 11, 2009 10:59 pm

soleil hat geschrieben:Wenn ich insgesamt nur 5,5 Mio RWIs habe, wie kann ein Bruchteil davon 4,6 Mio ausmachen?

die erste Datei (mit der Folgenummer 0) hat zu jedem Wort maximal 4 Referenzen. D.h. du hast da sehr viele Wörter drin. Das erklärt deine Beobachtung. Die nächste Datei hat maximal 16 Referenzen pro Wort, die nächste 64 .. aber das wurde hier schon recht oft erklärt.
Die nächste Datei wird dann langsamer, weil es sich dann schon um Updates der Counter in der Statistik handelt, nehme ich mal an. Für den Prozess sind die Counter nicht notwendig, s.o., ist aber nun halt so. Ich hatte das ja auch nicht als daily-job Prozess geplant.

Wieviele Löschungen habt ihr denn nun so gehabt?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Überflüssige URLs bereinigen

Beitragvon thq » Do Mär 12, 2009 12:10 am

So, hatte das auch mal gestartet (SVN 5694), hatte immer 100% auf einen Dual-Core, aber nach 1.5 Tagen abgebrochen. Es wurde gerade kca 3 angefangen und da stand was von 21xx Minuten und da die Dateien ab jetzt immer größer werden ... also mehrere Tage warten kommt erst in Frage wenn mir der Speicher ausgeht.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Überflüssige URLs bereinigen

Beitragvon daburna » Do Mär 12, 2009 2:17 pm

Ich bekomme beim zweiten Schritt leider folgende Meldung:
Code: Alles auswählen
daburna@Pansen:~/yacy/yacy$ java -Xmx1000m -cp classes de.anomic.data.URLAnalysis -diffurlcol DATA/INDEX/freeworld/TEXT used.dump diffurlcol.dump
COLLECTION INDEX DIFF URL-COL startup
12.03.2009 14:16:24 de.anomic.kelondro.util.Log logWarning
WARNUNG: row not well-formed: rowinstance[0] =  / [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,]
Exception in thread "main" java.lang.NullPointerException
   at de.anomic.kelondro.index.RowCollection.addUnique(RowCollection.java:287)
   at de.anomic.kelondro.index.ObjectIndexCache.addUnique(ObjectIndexCache.java:141)
   at de.anomic.kelondro.index.IntegerHandleIndex.<init>(IntegerHandleIndex.java:77)
   at de.anomic.data.URLAnalysis.diffurlcol(URLAnalysis.java:410)
   at de.anomic.data.URLAnalysis.main(URLAnalysis.java:484)
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Überflüssige URLs bereinigen

Beitragvon Orbiter » Do Mär 12, 2009 3:20 pm

hast du die aktuelle Version? da war nämlich ein Bug, der nicht den ersten Verarbeitungsschritt betraf, aber den 2.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Überflüssige URLs bereinigen

Beitragvon daburna » Do Mär 12, 2009 3:51 pm

Das war SVN5700. In SVN5701 bekomm ich das aber auch noch.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Überflüssige URLs bereinigen

Beitragvon bluumi » Do Mär 12, 2009 5:01 pm

Orbiter hat geschrieben:Wieviele Löschungen habt ihr denn nun so gehabt?

Bei mir läuft noch immer der aller erste Schritt. Bin ja sehr gespannt auf das Resultat :) Da ich nun nach 3 Tagen die ersten 25GB durch habe und nur noch die letzte 25GB Datei habe, bin ich ja auch bald soweit. Und falls sich das wirklich gelohnt hat, kann ich die anderen Peers auch machen.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Überflüssige URLs bereinigen

Beitragvon Orbiter » Fr Mär 13, 2009 3:46 pm

Diese Sache hier hat dann doch im Fahrwasser was gutes gehabt: das hat mich dazu gebracht, die verschiedenen Index-Datenstrukturen auf Performanceverbesserungsmöglichkeiten durchzugucken, und ich glaube ich habe dabei nun mit SVN 5708 bis zu einem Faktor 5 mehr herausgeholt!
Nun ist es sicherlich interessant, wie gut die Indexdatenstrukturen im Verhältnis zu den Java TreeMap skalieren. Die kelondro RowSet gibt es ja deswegen, weil ich nach eine Möglichkeit gesucht habe, eine Map mit möglichst wenig Speicheroverhead zu verwalten. TreeMap hat einen gewaltigen Overhead. Nun gibt es eine neue Messroutine.

Dazu folgendes ausführen:
java -Xmx1000m -cp classes de.anomic.kelondro.index.IntegerHandleIndex

Das mach ein Einpflegen von Zufallszahlen und eine erhöhung der Zahlen in gleicher Weise wie die -incollection Funktion (s.o.). Das wird sowohl mit der kelondro-Klasse als auch mit TreeMap gemacht, und dann Ausführungsgeschwindigkeit und Speicherbelegung gemessen.

Ergebnis: Java is in etwa doppelt so schnell, belegt aber vier mal so viel Speicher! Das die Java-Klassen schneller sind, war klar, aber der Speicherverbrauch ist für YaCy einfach zu hoch.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Überflüssige URLs bereinigen

Beitragvon thq » Fr Mär 13, 2009 3:49 pm

Habe im 1. Durchgang leider das hier

Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: -204
at de.anomic.kelondro.index.RowSetArray.accessArray(RowSetArray.java:58)
at de.anomic.kelondro.index.RowSetArray.inc(RowSetArray.java:203)
at de.anomic.kelondro.index.ObjectIndexCache.inc(ObjectIndexCache.java:147)
at de.anomic.kelondro.index.IntegerHandleIndex.inc(IntegerHandleIndex.java:146)
at de.anomic.kelondro.text.IndexCollection.referenceHashes(IndexCollection.java:442)
at de.anomic.data.URLAnalysis.incollection(URLAnalysis.java:394)
at de.anomic.data.URLAnalysis.main(URLAnalysis.java:478)
5709

Hier mal mein Test, ein mini-itx mit einen Celeron und 2GB.
Code: Alles auswählen
Starting test with 1000000 objects, minimum memory: 16000000 bytes; 1040228392 available
Result IntegerHandleIndex: 89485 inc per second 1000000 loops.
Used Memory: 2218440 bytes
x 9
Result HashMap: 99039 inc per second; 1000000 loops.
Used Memory: 9780280 bytes
x 9
Geschwindigkeitsfaktor j/k: 1
Speicherplatzfaktor    j/k: 4
und jetzt mit -server
Code: Alles auswählen
Result IntegerHandleIndex: 95602 inc per second 1000000 loops.
Used Memory: 2222432 bytes
x 9
Result HashMap: 114442 inc per second; 1000000 loops.
Used Memory: 11994336 bytes
x 9
Geschwindigkeitsfaktor j/k: 1
Speicherplatzfaktor    j/k: 5
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Überflüssige URLs bereinigen

Beitragvon PCA42 » Fr Mär 13, 2009 3:57 pm

Orbiter hat geschrieben:Diese Sache hier hat dann doch im Fahrwasser was gutes gehabt: das hat mich dazu gebracht, die verschiedenen Index-Datenstrukturen auf Performanceverbesserungsmöglichkeiten durchzugucken, und ich glaube ich habe dabei nun mit SVN 5708 bis zu einem Faktor 5 mehr herausgeholt!
Nun ist es sicherlich interessant, wie gut die Indexdatenstrukturen im Verhältnis zu den Java TreeMap skalieren. Die kelondro RowSet gibt es ja deswegen, weil ich nach eine Möglichkeit gesucht habe, eine Map mit möglichst wenig Speicheroverhead zu verwalten. RowSet hat einen gewaltigen Overhead. Nun gibt es eine neue Messroutine.

Auch wenn das dann hier langsam Offtopic wird: das mit der Speicherverwaltung ist wirklich gut zu sehen. Der Graph im Diagramm ist viel gemütlicher geworden. Und das ist eine Optimierung hinsichtlich der knappesten Resource, nämlich dem RAM. Sein wir mal ehrlich: Prozessorleistung ist selten knapp. Und wenn die mal fehlt, kann man auch mal eine Sekunde warten. Aber mit zu wenig Speicher hilft auch warten nicht mehr ;)
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Überflüssige URLs bereinigen

Beitragvon Orbiter » Fr Mär 13, 2009 4:11 pm

nicht das wir hier was falsch verstehen: die Speichermenge ist bei der kelondro-Klasse gleich geblieben, nur die Geschwindigkeit ging höher. Da hatt ich oben einen Schreibfehler: TreeMap hat den Overhead, nicht RowSet.
Vielleicht kann man mit Concurrency noch ein wenig mehr raus holen, und TreeMap sogar schlagen. Das wäre sehr cool.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Überflüssige URLs bereinigen

Beitragvon thq » Fr Mär 13, 2009 5:16 pm

Wurde mein Fehler von oben in 5710 behoben oder kann/muss ich noch warten ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Überflüssige URLs bereinigen

Beitragvon soleil » Fr Mär 13, 2009 8:00 pm

Orbiter hat geschrieben:nicht das wir hier was falsch verstehen: die Speichermenge ist bei der kelondro-Klasse gleich geblieben, nur die Geschwindigkeit ging höher.


Bedeutet das, daß ich das Löschen der unnützen URLs neu starten sollte, da es um den Faktor 2 schneller geworden ist? Nach nur einem Tag Rechnen sollte ich deutlich unter der Hälfte der Gesamtzeit liegen.
soleil
 
Beiträge: 22
Registriert: Di Jan 13, 2009 11:36 pm

Re: Überflüssige URLs bereinigen

Beitragvon Orbiter » Fr Mär 13, 2009 8:08 pm

theoretisch ... bis zu Faktor 5 :lol: aber ich will nix versprechen

thq hat geschrieben:Wurde mein Fehler von oben in 5710 behoben oder kann/muss ich noch warten ?


Die Routine ist deterministisch, trotz des Random (wegen gleichen Startpunkt). Ich habe das auf verschiedenen Rechnern gestartet, hab den Fehler nicht gehabt, sonst würde ich das nicht committen. Da das Ding deterministisch ist, kann es nicht sein, das du da einen Fehler hast. Trotzdem glaube ich dir, bin aber noch nicht darauf gekommen, wie das sein kann. Es ist ausserdem so, das überhaupt die beteiligten Algorithmen gar keine negative Zahlen ausspucken können. Das ist schon sehr merkwürdig. Bist du sicher das du den gleichen Code ausführst? hat irgendjemand sonst den Fehler?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Überflüssige URLs bereinigen

Beitragvon thq » Fr Mär 13, 2009 8:47 pm

Ja, der DB-Code ist nicht geändert. YaCy war ja auch schon fast fertig, von daher möchte ich das erst wieder starten wenn das abgefangen wird.

Ich gehe mal davon aus das YaCy einen Offset da ausgelesen hat, kann man an der Stelle wo auf null geprüft wird nicht auch auf < 0 testen und dann den Datensatz überspringen ?

Von mir aus teste nur ich das, muss halt nur wissen wo und was ich ändern muss.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Überflüssige URLs bereinigen

Beitragvon soleil » Fr Mär 13, 2009 9:55 pm

Orbiter hat geschrieben:theoretisch ... bis zu Faktor 5 :lol: aber ich will nix versprechen

Im Gegenteil, der Code ist _radikal_ schneller geworden. Mit svn 5704:
COLLECTION INDEX REFERENCE COLLECTION opened partition 6, starting reference scanning
COLLECTION INDEX REFERENCE COLLECTION scanned 6 RWI index entries. 45 minutes remaining for this array
COLLECTION INDEX REFERENCE COLLECTION scanned 29 RWI index entries. 100 minutes remaining for this array
...
COLLECTION INDEX REFERENCE COLLECTION scanned 392 RWI index entries. 189 minutes remaining for this array
COLLECTION INDEX REFERENCE COLLECTION scanned 407 RWI index entries. 190 minutes remaining for this array
COLLECTION INDEX REFERENCE COLLECTION scanned 416 RWI index entries. 191 minutes remaining for this array
...
COLLECTION INDEX REFERENCE COLLECTION scanned 5105 RWI index entries. 0 minutes remaining for this array

Wie man sieht, war die Zeitmessung recht ungenau. Der Prozeß hat deutlich länger als nur drei Stunden gebraucht.

Mit svn 5711:
COLLECTION INDEX REFERENCE COLLECTION opened partition 6, starting reference scanning
COLLECTION INDEX REFERENCE COLLECTION scanned 24 RWI index entries. 10 minutes remaining for this array
COLLECTION INDEX REFERENCE COLLECTION scanned 273 RWI index entries. 9 minutes remaining for this array
...
COLLECTION INDEX REFERENCE COLLECTION scanned 4932 RWI index entries. 0 minutes remaining for this array

Und hier stimmen die 10 Minuten. Also ein Faktor von mindestens 20, eher 50. Nehmen wir einmal an, daß die endgültige Ausgabe identisch gewesen wäre...
soleil
 
Beiträge: 22
Registriert: Di Jan 13, 2009 11:36 pm

Re: Überflüssige URLs bereinigen

Beitragvon Orbiter » Fr Mär 13, 2009 11:17 pm

thq hat geschrieben:Ja, der DB-Code ist nicht geändert. YaCy war ja auch schon fast fertig, von daher möchte ich das erst wieder starten wenn das abgefangen wird.

Ich gehe mal davon aus das YaCy einen Offset da ausgelesen hat, kann man an der Stelle wo auf null geprüft wird nicht auch auf < 0 testen und dann den Datensatz überspringen ?

Von mir aus teste nur ich das, muss halt nur wissen wo und was ich ändern muss.

ah, jetzt fällt der Groschen bei mir, du meinst nicht das Testprogramm, sondern das -incollection! Muss ich nochmal nachdenken.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Überflüssige URLs bereinigen

Beitragvon thq » Fr Mär 13, 2009 11:51 pm

Orbiter hat geschrieben:
thq hat geschrieben:Ja, der DB-Code ist nicht geändert. YaCy war ja auch schon fast fertig, von daher möchte ich das erst wieder starten wenn das abgefangen wird.

Ich gehe mal davon aus das YaCy einen Offset da ausgelesen hat, kann man an der Stelle wo auf null geprüft wird nicht auch auf < 0 testen und dann den Datensatz überspringen ?

Von mir aus teste nur ich das, muss halt nur wissen wo und was ich ändern muss.

ah, jetzt fällt der Groschen bei mir, du meinst nicht das Testprogramm, sondern das -incollection! Muss ich nochmal nachdenken.
Genau, das Testprogramm ist ja hier eigentlich OT ;)
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Überflüssige URLs bereinigen

Beitragvon soleil » Sa Mär 14, 2009 12:01 am

So, mit der neuen Version gingen die ersten Schritte wirklich schnell. Das Löschen der URLs kündigt sich wie folgt an:
starting deletion of 835005 entries from 13441168
Es scheint leider recht langsam zu sein; die Dateien werden langsam kleiner. Ich lasse es mal die Nacht durch laufen.

Gibt es eine Möglichkeit, das zu beschleunigen? Zum Beispiel durch Ausnullen der zu löschenden Einträge und nachfolgendes Kopieren der Dateien unter Auslassen der Nullen? Oder durch Anlegen einer sortierten Liste der zu löschenden Bereiche im Hauptspeicher und Kopieren der Dateien unter Auslassen dieser Bereiche?
soleil
 
Beiträge: 22
Registriert: Di Jan 13, 2009 11:36 pm

Re: Überflüssige URLs bereinigen

Beitragvon Orbiter » Sa Mär 14, 2009 1:08 am

@thq: probier mal fix in SVN 5714
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Überflüssige URLs bereinigen

Beitragvon Orbiter » Sa Mär 14, 2009 1:13 am

soleil hat geschrieben:Es scheint leider recht langsam zu sein; die Dateien werden langsam kleiner.

Gibt es eine Möglichkeit, das zu beschleunigen? Zum Beispiel durch Ausnullen der zu löschenden Einträge und nachfolgendes Kopieren der Dateien unter Auslassen der Nullen? Oder durch Anlegen einer sortierten Liste der zu löschenden Bereiche im Hauptspeicher und Kopieren der Dateien unter Auslassen dieser Bereiche?

Es gab hier im Forum früher immer so Rufe nach 'wenn ich was lösche, warum wird die Datei nicht kleiner?'. Deswegen wird bei einer Löschung immer der letzte Record der Datei in das Gap geschrieben (bei Eco-Files!, bei BLOBs ist das anders).

Wenn man das bei Massen-Löschungen beschleunigen will, muss man erst alle Löschkandidaten für eine Eco-Datei bestimmen, und dann gemeinsam die Gaps mit den Records von der Ende der Datei her füllen. So eine Massen-Löschung gibts aber bisher noch nicht.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Überflüssige URLs bereinigen

Beitragvon PCA42 » Sa Mär 14, 2009 7:50 am

So, hab den ersten Durchlauf zum Ermitteln der tatsächlichen URLs auch durch. Die aktuelle Variante hatte in ca. 4 Stunden die 50 GB durch.
@Orbiter: Wenn wir also uns beschweren, geht es also doch fixer. ;)
Es sind auf meinem Peer 12 Mio URLs ungenutzt, etwas mehr als 1/6. Ich werd dann heut auch mal den Rest der Bereinigung durchlaufen lassen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Überflüssige URLs bereinigen

Beitragvon thq » Sa Mär 14, 2009 8:44 am

Ich habe leider einen neuen Fehler :(

Code: Alles auswählen
Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: -20
        at de.anomic.kelondro.order.Base64Order.cardinalI(Base64Order.java:261)
        at de.anomic.kelondro.order.Base64Order.cardinal(Base64Order.java:302)
        at de.anomic.kelondro.order.Base64Order.cardinal(Base64Order.java:35)
        at de.anomic.kelondro.index.RowSetArray.indexFor(RowSetArray.java:50)
        at de.anomic.kelondro.index.RowSetArray.inc(RowSetArray.java:213)
        at de.anomic.kelondro.index.ObjectIndexCache.inc(ObjectIndexCache.java:147)
        at de.anomic.kelondro.index.IntegerHandleIndex.inc(IntegerHandleIndex.java:146)
        at de.anomic.kelondro.text.IndexCollection.referenceHashes(IndexCollection.java:442)
        at de.anomic.data.URLAnalysis.incollection(URLAnalysis.java:394)
        at de.anomic.data.URLAnalysis.main(URLAnalysis.java:478)
5715

Zur Not lösche ich auch die Datei, aber ungern weil es eine große kca 5 Datei ist.
Zuletzt geändert von thq am Sa Mär 14, 2009 10:50 am, insgesamt 1-mal geändert.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Überflüssige URLs bereinigen

Beitragvon soleil » Sa Mär 14, 2009 10:08 am

Orbiter hat geschrieben:Es gab hier im Forum früher immer so Rufe nach 'wenn ich was lösche, warum wird die Datei nicht kleiner?'.

Ja, die Benutzer...
Orbiter hat geschrieben:Wenn man das bei Massen-Löschungen beschleunigen will, muss man erst alle Löschkandidaten für eine Eco-Datei bestimmen, und dann gemeinsam die Gaps mit den Records von der Ende der Datei her füllen. So eine Massen-Löschung gibts aber bisher noch nicht.

So eine Massenlöschung wäre eine feine Sache. Wahrscheinlich wäre es sinnvoll, dateiweise vorzugehen; dann reichte es, die Löschkandidaten einer Datei zu sortieren, was im Hauptspeicher machbar sein sollte.

Meine 800000 Löschungen sind nach einer Nacht noch nicht fertig; grob nach Dateigröße geschätzt, bin ich etwa bei der Hälfte. 12 Mio. würden dann etwa zwei Wochen dauern...

Was mich wundert, ist, daß die CPU-Auslastung bei etwa 90% liegt; ich hätte mit mehr "waiting" auf die Ein- und Ausgabe gerechnet. Oder eben mit einer schnelleren Verarbeitung; wie kommt es, daß die CPU der limitierende Faktor ist?
soleil
 
Beiträge: 22
Registriert: Di Jan 13, 2009 11:36 pm

Re: Überflüssige URLs bereinigen

Beitragvon thq » Sa Mär 14, 2009 11:07 am

Mein anderer Peer den ich nach 1.5 Tagen abgebrochen habe (Step 1) war jetzt mit den ersten 3 Aufgaben nach ~2 Stunden fertig und ist jetzt am löschen...

URL DELETE loaded dump, starting deletion of 2.537.409 entries from 29.775.907

Was mich wundert ist das der Export (txt) nur 136.559 Zeilen hat, davon sind 106 doppelt.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Überflüssige URLs bereinigen

Beitragvon bluumi » Sa Mär 14, 2009 12:00 pm

PCA42 hat geschrieben: Die aktuelle Variante hatte in ca. 4 Stunden die 50 GB durch.

Nun, dann breche ich besser meinen auch (nach nur 4.5 Tagen) ab und starte mit der neuen Version neu :) Sollte es bei meinen 50GB auch nur 4 oder 5 Std dauern ist das noch schneller als weitere 1.5 Tage :)
[edit] Mann, die Beschleunigung ist ja die Hölle :-D .. mit der ersten Version habe ich 72 Std benötigt für die ersten 5 Files, wie es jetzt mit der neuen noch 0.5 Std. dauerte. :mrgreen:
Zuletzt geändert von bluumi am Sa Mär 14, 2009 12:32 pm, insgesamt 2-mal geändert.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Überflüssige URLs bereinigen

Beitragvon Orbiter » Sa Mär 14, 2009 12:14 pm

@thq: ich gucke nach dem Fehler. kanngerade nicht

soleil hat geschrieben:Was mich wundert, ist, daß die CPU-Auslastung bei etwa 90% liegt; ich hätte mit mehr "waiting" auf die Ein- und Ausgabe gerechnet. Oder eben mit einer schnelleren Verarbeitung; wie kommt es, daß die CPU der limitierende Faktor ist?

weiss nicht. kannst du versuchen mit ein paar kill -3 rauszubekommen: einfach mehrfach abschicken, dann im Dump gucken ob einem was auffällt ob irgendwie immer an der gleichen Stelle gerechnet wird. Nicht bei blocked-threads gucken, die warten wahrscheinlich auf IO.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Überflüssige URLs bereinigen

Beitragvon lulabad » Sa Mär 14, 2009 2:15 pm

Also ich habs jetzt auch mal laufen lassen und bei mir sind 2.3 Mio Links von 37Mio ohne Referenz. Den Wert finde ich jetzt nicht so schlimm, daher hab ich auch die Bereinigung nicht machen lassen.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Überflüssige URLs bereinigen

Beitragvon thq » Sa Mär 14, 2009 2:37 pm

Schlimm ist das nicht, aber YaCy muss im ungünstigsten Fall immer > 2 Millionen Datensätze mehr vergleichen. Von daher wurde ich schon sagen das es sich lohnt.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Überflüssige URLs bereinigen

Beitragvon bluumi » Sa Mär 14, 2009 3:54 pm

Meine Resultate der Löschung
PeerA 4.4 Mio von 32 Mio / PeerB 2.7 Mio von 9 Mio
Der Peer mit 41 Mio URL hatte zum Glück ein 64Bit OS, denn der 2te Schritt benötigte 2.3Gbyte RAM.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Überflüssige URLs bereinigen

Beitragvon daburna » So Mär 15, 2009 12:17 pm

daburna hat geschrieben:Ich bekomme beim zweiten Schritt leider folgende Meldung:
Code: Alles auswählen
daburna@Pansen:~/yacy/yacy$ java -Xmx1000m -cp classes de.anomic.data.URLAnalysis -diffurlcol DATA/INDEX/freeworld/TEXT used.dump diffurlcol.dump
COLLECTION INDEX DIFF URL-COL startup
12.03.2009 14:16:24 de.anomic.kelondro.util.Log logWarning
WARNUNG: row not well-formed: rowinstance[0] =  / [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,]
Exception in thread "main" java.lang.NullPointerException
   at de.anomic.kelondro.index.RowCollection.addUnique(RowCollection.java:287)
   at de.anomic.kelondro.index.ObjectIndexCache.addUnique(ObjectIndexCache.java:141)
   at de.anomic.kelondro.index.IntegerHandleIndex.<init>(IntegerHandleIndex.java:77)
   at de.anomic.data.URLAnalysis.diffurlcol(URLAnalysis.java:410)
   at de.anomic.data.URLAnalysis.main(URLAnalysis.java:484)


Der Fehler ist weg, nachdem ich Schritt 1 nochmal mit der aktuellen SVN-Version wiederholt habe.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Überflüssige URLs bereinigen

Beitragvon daburna » So Mär 15, 2009 1:49 pm

Löschung beendet. 299.686 entries from 5.224.146
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Überflüssige URLs bereinigen

Beitragvon Lilirasa » So Mär 15, 2009 2:03 pm

Bei mir sind es
4.3 Mio von 27 Mio URLs
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: Überflüssige URLs bereinigen

Beitragvon thq » Mo Mär 16, 2009 8:55 pm

Orbiter hat geschrieben:@thq: ich gucke nach dem Fehler. kanngerade nicht
Bild
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Nächste

Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste