DHT - massive Seitensteigerung?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

DHT - massive Seitensteigerung?

Beitragvon liebel-lab » So Mai 10, 2009 6:49 am

Guten Morgen zusammen (svn 5918)
Michael hat im sciencenet seit Freitag auch DHT und redund. 2 aktiviert. Vorher waren ca 120 Mio Seiten im index. Erwartet haette ich ~daher 240 bei red 2.
Allerdings sieht man bis jetzt bereits 430 Mio Seiten. Siehe hier: http://141.52.175.13:8080/Network.html
Das muesste auch beim Freeworld so sein, dass deutlich mehr Seiten angezeigt werden als tatsaechlich im index sind. da die zahl weiter steigt kann ich noch nicht sagen ob es "einfach" ein falscher multiplikator ist...gibt es dafuer eine andere erklaerung?
cheers
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: DHT - massive Seitensteigerung?

Beitragvon lulabad » So Mai 10, 2009 7:24 am

Warscheinlich dass hier: viewtopic.php?f=5&t=2079
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: DHT - massive Seitensteigerung?

Beitragvon PCA42 » So Mai 10, 2009 7:33 am

Mit den RWI stimmt auch, aber hier geht es ja um die URLs.

Es gibt leider keine Möglichkeit, die Anzahl der URLs korrekt zu berechnen, wenn DHT an ist. Denn eine identische URL kann im Extremfall auf jedem Peer im Netz vorkommen. Oder auch nur einmal, wenn noch keine Daten von der Seite verteilt wurden. Und sie kann sogar überflüssigerweise auf Peers liegen, wenn alle Daten der Seite verteilt wurden, da das nicht automatisch bereinigt wird.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: DHT - massive Seitensteigerung?

Beitragvon lulabad » So Mai 10, 2009 7:44 am

PCA42 hat geschrieben:Mit den RWI stimmt auch, aber hier geht es ja um die URLs

Ups, ist noch zu früh heute.
Ich denke auch dass das kein Bug ist.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: DHT - massive Seitensteigerung?

Beitragvon PCA42 » So Mai 10, 2009 7:53 am

lulabad hat geschrieben:Ich denke auch dass das kein Bug ist.

Definitiv kein Bug. Die Anzahl der Seiten steigen zu sehen ist zwar nett, aber nur ein Indiz für gut funktionierendes DHT. Und wie bereits beschrieben: es kann auch keinen Multiplikator geben.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: DHT - massive Seitensteigerung?

Beitragvon thq » So Mai 10, 2009 8:26 am

Das ungenaue und das quasi fast jeder Peer jede URL kennen kann und damit mehr Speicher für die Indexes braucht sind die Gründe warum ich auch für für DHT bei den URLs bin. Abgesehen von Zeitverlust bei der Suche der entstehen kann, hätte das für die Peers nur Vorteile weil die Datenmenge kleiner wird. Man entweder beides (RWIs, URLs) speichert oder nur eins davon (kleine Peers). Ob der Zeitverlust aber so groß ist, das es zu langsam ist, müsste man erstmal testen. Ich sag mir immer, die Zeit arbeitet für uns weil das Internet ja auch immer schneller wird.

Nicht ganz sicher: ich glaube Orbiter hat mal geschrieben das wir quasi so etwas haben, aber ich merke (bis jetzt) davon nichts. Ist aber auch keine Wunder weil URLs ja nie gelöscht werden (bis jetzt) ;)
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT - massive Seitensteigerung?

Beitragvon liebel-lab » So Mai 10, 2009 11:00 am

liebel-lab hat geschrieben:Guten Morgen zusammen (svn 5918)
Allerdings sieht man bis jetzt bereits 430 Mio Seiten. Siehe hier: http://141.52.175.13:8080/Network.html


Update: bis jetzt ist die zahl auf 452 Mio seiten gewachsen obwohl definitiv nur ~120 Mio individuelle Seiten vorhanden sind. uiuiuiuiu
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: DHT - massive Seitensteigerung?

Beitragvon PCA42 » So Mai 10, 2009 11:07 am

liebel-lab hat geschrieben:Update: bis jetzt ist die zahl auf 452 Mio seiten gewachsen obwohl definitiv nur ~120 Mio individuelle Seiten vorhanden sind. uiuiuiuiu

Da geht noch was ;)
Warum habt ihr DHT in dem Netz eigentlich aktiviert?
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: DHT - massive Seitensteigerung?

Beitragvon liebel-lab » So Mai 10, 2009 11:19 am

wir verlieren leider immer wieder 1-2 rechner (netzteile ) aber auch ab und zu bleibt halt ein peer sofdtwareseitig haengen....derzeit sind bei einem grossen reboot 3 peers/netzteile ausgefallen...uns fehlen dann wichtige sites im index...
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: DHT - massive Seitensteigerung?

Beitragvon Orbiter » So Mai 10, 2009 11:56 am

Das massive URL-Wachstum ist, wie oben schon geschrieben wurde, korrekt. So funktioniert das nun mal.
thq hat geschrieben:warum ich auch für für DHT bei den URLs bin.

vielleicht waren meine Erklärungen dazu bisher nicht verständlich genug, aber die URL-DHT ist de factor da. Wir haben eine Wort-DHT gehabt, und durch die Änderungen in der DHT-Strategie ab 0.71 wurde die vertikale DHT eingefügt. Die bisherige Wort-DHT hat dabei den horizontalen Anteil in einer DHT-Matrix. Die Höhe der Matrix wird durch den Wert in network.unit.dht.partitionExponent bestimmt, bei network.unit.dht.partitionExponent = 4 ist das eine 16-Teilung der Wort-DHT in 16 URL-DHT Zonen.

Leider hab ich beim Sciencenet den Wert network.unit.dht.partitionExponent in der Netzdefinition vergessen, worauf YaCy den Default von 0 (keine vertikale DHT) genommen hat. Hab das geändert. Nach dem nächsten Re-Boot sollte dann das Wachstum der URLs im Netz zwar anhalten, aber mit 16-fach verminderter Geschwindigkeit.
Orbiter
 
Beiträge: 5799
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: DHT - massive Seitensteigerung?

Beitragvon thq » So Mai 10, 2009 12:10 pm

Wusste doch das das schon mal Thema war, dauert aber noch bis es richtig klick bei mir macht ;)

Würde es gut finden wenn man das im Wiki finden könnte, oder ist das da schon ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT - massive Seitensteigerung?

Beitragvon liebel-lab » So Mai 10, 2009 12:21 pm

ok. hat mich nur etwas verwirrt von 120 Mio seiten zu wissen und 450...nein aktuell 460 Mio seiten zu "sehen". andere könnten ebenfalls denken dass freeworld viel mehr seiten enthaelt als real existieren...kann man das du einen "echten" wert ergänzen? da ich im sciencenet nicht mehr (ganz wenig ) crawele bin ich mal gespannt wo der zaehler stehen bleibt...als vergleich zwischen real / individ. und anzeige....danke fuer die erklaerung auf jeden fall...
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: DHT - massive Seitensteigerung?

Beitragvon Orbiter » So Mai 10, 2009 12:28 pm

ein Paper über 20 Seiten würden für eine detaillierte Darstellung der Vorgehensweise angemessen sein. Dazu fehlte mir bislang die Zeit. Ganz kurz ausgedrückt: das hier berechnet die Position:
Code: Alles auswählen
    public final long dhtPosition(final byte[] wordHash, final String urlHash) {
        // this creates 1^^e different positions for the same word hash (according to url hash)
        if (urlHash == null || partitionExponent < 1) return FlatWordPartitionScheme.std.dhtPosition(wordHash, null);
        long partitionMask = (1L << (Long.SIZE - 1 - partitionExponent)) - 1L;
        return (FlatWordPartitionScheme.std.dhtPosition(wordHash, null) & partitionMask) | (FlatWordPartitionScheme.std.dhtPosition(urlHash.getBytes(), null) & ~partitionMask);
    }

Die DHT-Position wird dabei von den LSB der Wort-DHT bestimmt, und die HSB der DHT wird durch die URL-DHT bestimmt. Die Grenze wird durch die PartitionMask bestimmt, die einfach eine Bit-Maske ist, die entweder vorne <partitionExponent> oder (durch Invertierung) hinten 64-<partitionExponent> bits maskiert. Die DHT-Position wird dabei (nicht wie vor 0.71 mit float-Zahlen) mit einer long-Zahl ausgedrückt, und später erst in die 72-bit YaCy-Standard Hash mit 12 Zeichen b64 umgerechnet.
Orbiter
 
Beiträge: 5799
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: DHT - massive Seitensteigerung?

Beitragvon Lotus » So Mai 10, 2009 1:17 pm

Weil das hier vielleicht relevant wird:
ich habe den Verdacht, dass es durch das myself-target zu unendlich langem DHT-Versand kommt. Das könnte noch unzureichend verteilte Daten in der Verteilung verzögern. Oder zu einem endlosen hin- und herschicken führen. Ahnlich hier: viewtopic.php?p=13051#p13051. Das habe ich seitdem nicht weiter untersucht.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: DHT - massive Seitensteigerung?

Beitragvon liebel-lab » Mo Mai 11, 2009 7:17 am

heute morgen 512 Mio...uiuiui und es nimmt kein Ende...also von 120 Mio realen auf 512 Mio angezeigten...hm...und es steigt und steigt weiter...mal sehen ob die platten auch vollgelaufen sind
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron