URL-Listen generieren für statistische Analyse

Ereignisse, Vorschläge und Aktionen

URL-Listen generieren für statistische Analyse

Beitragvon Orbiter » Mo Feb 23, 2009 9:52 am

mir kam heute morgen die Idee, dass man bei einer Umstellung der URL-Datenbanken von Eco auf BLOBs Speicherplatz sparen könnte, indem man die URLs mit einem angemessenem Algorithmus komprimiert. Angemessen wäre hier ein Ersetzen von häufig auftretenden Worten durch 1-byte lange tags. Da alle urls nur ASCII 7-bit sind, könnte man 128 Tags vorkonfigurieren, und dann beim Auslesen einfach expandieren.

Dazu braucht man aber eine Analyse, welche Wörter/Phrasen in URLs am häufigsten vorkommen, und dazu bräuchte man lange URL-Listen zum Berechnen der besten Standard-Tags. Ich stelle mir vor, das da Wörter drin sind wie
cgi
image
posting
news
recent
und so weiter. Vielleicht sehen wir ja auch Überraschungen.

Daher würde ich hier gerne einen Aufruf machen, URL Listen zu exportieren und zu sammeln. Wir konsolidieren dann die Listen und jeder, der beigetragen hat könnte die konsolidierte Liste bekommen. Damit das ganze neutral abläuft, würde ich vorschlagen das jemand von euch sich als 'Konsolidierer' bereit erklärt, und einen FTP Server aufsetzt um die Listen zu hosten, bzw. eine Upload-Möglichkeit zu bieten. Ich schreibe ein Analysetool, das dann auch jeder wieder selber einsetzten kann. Wenn das Experiment gelingt, gewinnen wir eine statische token-Liste, die man zum Komprimieren von URLs gut gebrauchen kann.

Wer meldet sich freiwillig als 'Konsolidierer' und hostet einen FTP-Server für den Listenupload?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Listen generieren für statistische Analyse

Beitragvon Low012 » Mo Feb 23, 2009 10:39 am

Ich könnte mehrere GB Speicherplatz auf einem gut angebundenen Server zur Verfügung stellen. Ob per FTP oder per SCP müsste ich mal schauen. Benutzernamen und Passwort würde ich allerdings ungern hier im Forum veröffentlichen, sondern nur auf Anfrage herausgeben, damit niemand dort wasweißich hochlädt, weil ich nicht ständig kontrollieren kann, was auf dem Server liegt. Damit wäre ein anonymer Upload bei mir nicht möglich.

Oder wir müssten das in Stufen machen:

1. alle können hochladen, aber niemand kann etwas herunterladen
2. an einem bestimmten Datum schaue ich mir die Dateien an, ob das alles wirklich URL-Listen sind
3. danach kann jeder runterladen, aber nicht mehr hochladen
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon thq » Mo Feb 23, 2009 10:49 am

Ich würde beim erstellen der Wörter/Phrasen nicht nur cgi, news .. erfassen sondern zusätzlich dazu /cgi, /news, ?abc, &xyz, .domain. Sollten solche Phrasen weit oben landen würden wir wieder 1 Byte mehr einsparen.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon lulabad » Mo Feb 23, 2009 12:36 pm

Das exportieren dauert ja ewig. 1 Stunde für 300.000 URLs.

ftp Server kann ich auch zur Verfügung stellen, aber definitiv nicht anonym.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: URL-Listen generieren für statistische Analyse

Beitragvon Orbiter » Mo Feb 23, 2009 12:46 pm

ich hab in etwa die gleiche Exportgeschwindigkeit, aber auf einer ganz alten Möhre. Wenn man RWI Distribution abschaltet bekommt man etwas mehr Speed. Immerhin sind das 10 Mio URLs pro Tag. Ich hab hier 16, wird also 2 Tage laufen. Da muss man den auto-Update abschalten!
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Listen generieren für statistische Analyse

Beitragvon lulabad » Mo Feb 23, 2009 12:54 pm

Ich hab 30Mio auf ner Eee-Box. das dauert dann 3 Tage. Bin gespannt ob ich genug Gedult aufbringe so lange zu warten :x
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: URL-Listen generieren für statistische Analyse

Beitragvon Orbiter » Mo Feb 23, 2009 1:08 pm

hab mich eben schon gefragt ob ich nicht lieber was schreibe, um die URLs schneller aus der DB zu bekommen. Wenn man das offline durch ein Script machen könnte wäre das doch auch nicht so schlecht, oder?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Listen generieren für statistische Analyse

Beitragvon thq » Mo Feb 23, 2009 1:14 pm

Bestimmt viel schneller ;)

Hatte das auch schon mal mit Perl gemacht.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon Orbiter » Di Feb 24, 2009 11:49 am

2 S-Bahnfahrten haben ausgereicht um dabei einen schnelleren DB-Export zu implementieren. Das betrifft aber zunächst nur die Eco-Tabellen, weil dort eine Steigerung leicht möglich ist. Die Änderung ist in SVN 5647. Ich hoffe das funktioniert, konnte das bisher nur an sehr kleinen URL-Listen ausprobieren, mehr habe ich nicht im Notebook. Wenn alles klappt könnte man eine Steigerung um den Faktor 100 sehen..

Eine erste statistische Auswertung der URL-Listen ist auch fertig in SVN 5646. Das ruft man so auf:
Code: Alles auswählen
java -Xmx2000m -cp classes de.anomic.data.URLAnalysis -stat DATA/EXPORT/20090224075636.txt

Man bekommt dann eine Datei 20090224075636.txt.stats, in der in umgekehrter Reihenfolge die Wörter stehen, die man als Tokens verwenden könnte. Ein
Code: Alles auswählen
tail -30 DATA/EXPORT/20090224075636.txt.stats
zeigt dann die besten Kandidaten für Tokens an, und die Zahl vorne dran sagt wieviele Bytes man in dem Beispieldump sparen könnte, wäre das entsprechende Wort ein Token.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Listen generieren für statistische Analyse

Beitragvon daburna » Di Feb 24, 2009 12:12 pm

Ich schmeiß meine Kiste mal an und teste das heute. Hab ca. 5 Mio URLs.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: URL-Listen generieren für statistische Analyse

Beitragvon daburna » Di Feb 24, 2009 12:33 pm

Das ging so schnell, dass ich es ein zweitesmal und dann mit Stoppuhr laufen liess. 5.103.146 URLs in 04:52 MInuten auf einem AMD Athlon X2 5050e mit 4GB DDR2-Ram. Wahnsinn! So schnell ging es noch nie. Gewählt war vollständige URL-Liste / einfache Liste (nur URLs) als Text.

Wohin jetzt mit den Token?
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: URL-Listen generieren für statistische Analyse

Beitragvon lulabad » Di Feb 24, 2009 12:34 pm

Der Export ist ja sowas von schneller. In 10min hat er 5Mio exportiert. Geil.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: URL-Listen generieren für statistische Analyse

Beitragvon Orbiter » Di Feb 24, 2009 12:43 pm

daburna hat geschrieben:Wohin jetzt mit den Token?

ich würde voschlagen die URL-Listen erst zu konsolidieren, und dann erst Tokens auszurechnen, zumal das Token-Ding ja bisher nur ein Test ist um zu sehen wie man das auswerten könnte. Die Rohdaten (URLs) würden wir erst mal sammeln. Marc hat ja einen ftp-Server aufsetzten wollen. Am besten gzipt ihr die Listen und ladet die dort hoch. Marc?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Listen generieren für statistische Analyse

Beitragvon Low012 » Di Feb 24, 2009 1:31 pm

Ich habe mal ein entsprechendes Verzeichnis angelegt, allerdings muss jeder, der etwas hochladen möchte, sich von mir einen Benutzernamen und ein Passwort geben lassen (am besten eine Nachricht über das Forum schicken). Falls es zu viele Daten werden, müsste das Ganze auf einen anderen Server umziehen, aber an den Server komme ich im Moment nicht dran.

Daburna hat schon ein Passwort bekommen und ist das Versuchskaninchen. ;)
Zuletzt geändert von Low012 am Di Feb 24, 2009 2:36 pm, insgesamt 1-mal geändert.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon Low012 » Di Feb 24, 2009 2:34 pm

Daburna lädt schon hoch, allerdings ist seine Liste schon so groß, dass sie den zur Verfügung stehende Platz schon halb voll macht. Ich werde deshalb auf meinem Root-Server einen FTP-Server installieren. Dort haben wir dann genug Platz und könnten die Listen auch ggf. direkt dort prozessieren. Vor heute Abend wird das aber nichts.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon lulabad » Di Feb 24, 2009 3:17 pm

Also die Analyse wird nach ca. 9Mio ziemlich langsam (wirklich langsam). Ich glaube nicht dass die 30Mio schafft. Kann man da auf die 'Schnelle' was machen?
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: URL-Listen generieren für statistische Analyse

Beitragvon Orbiter » Di Feb 24, 2009 3:27 pm

ja. das brauch RAM, bitte einen entsprechend angenehmen -Xmx Parameter mitgeben.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Listen generieren für statistische Analyse

Beitragvon lulabad » Di Feb 24, 2009 3:28 pm

Orbiter hat geschrieben:ja. das brauch RAM, bitte einen entsprechend angenehmen -Xmx Parameter mitgeben.

Tja, das hab ich auch schon gemerkt ;)
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: URL-Listen generieren für statistische Analyse

Beitragvon Orbiter » Di Feb 24, 2009 4:33 pm

das Ding ist eh nur der erste Schuss. ich brauche jetzt erst mal Testdaten..
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Listen generieren für statistische Analyse

Beitragvon lulabad » Di Feb 24, 2009 6:24 pm

Ums gleich mal vorweg zu sagen, man braucht für 30Mio URLs ca. 4GB RAM.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: URL-Listen generieren für statistische Analyse

Beitragvon PCA42 » Di Feb 24, 2009 6:33 pm

lulabad hat geschrieben:Ums gleich mal vorweg zu sagen, man braucht für 30Mio URLs ca. 4GB RAM.

Dann erstell ich mal "nur" die Liste. ;) Das Export-File ist bei mir alleine ca. 3,8 GB groß. Hat für die 57Mio URLs ca. 40 Minute gedauert. Ich lass auch schon mal sort drüberlaufen, bevor ich dass dann nachher packe.

Edit:
Fertig gepackt. Hab auch mal interessehalber die Größen der Archive verglichen: unsortiert 970 MB zu 476 MB sortiert.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: URL-Listen generieren für statistische Analyse

Beitragvon Phiber » Di Feb 24, 2009 10:30 pm

Nun wenn es jetzt für 50Mio nur 40min dauert bin ich gerne dabei mit meinem 20Mio.

Am besten schickt mir einfach jemand per PM einmal FTP-Zugangsdaten dann kann ich das hochladen, sofern es denn nun nen Server gibt mit genug Platz ;)
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon Orbiter » Di Feb 24, 2009 10:33 pm

PCA42 hat geschrieben:unsortiert 970 MB zu 476 MB sortiert.

dann wären ja viele doppelte drin, das wäre ziemlich blöd. Muss ich nachdenken wie das sein kann.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Listen generieren für statistische Analyse

Beitragvon Low012 » Di Feb 24, 2009 11:04 pm

Phiber hat geschrieben:Am besten schickt mir einfach jemand per PM einmal FTP-Zugangsdaten dann kann ich das hochladen, sofern es denn nun nen Server gibt mit genug Platz ;)


Ja, ich habe mittlerweile einen Server eingerichtet, der genug Platz für die Daten bieten sollte. Die Zugangsdaten schicke ich dir gleich.

Lesenden Zugriff gibt per anonymous FTP: ftp://anonymous@4o4.dyndns.org:2121

Wer Daten hochladen möchte, schickt mir am besten eine Nachricht über das Forum und bekommt dann einen Benutzernamen und ein Passwort. Wer anonym bleiben möchte, kann hier im Forum einen Link posten, wo ich die Daten herunterladen kann. Wenn man in diesem Unterforum nicht als gast posten kann, bitte woanders, wo das geht, einen neuen Thread aufmachen.

edit: Auf dem Server läuft übrigens Orbiters Anomic FTP Server.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon Orbiter » Di Feb 24, 2009 11:10 pm

huch was ist denn das für ein ftp server, ob der auch funktioniert?
lulabad hat geschrieben:Ums gleich mal vorweg zu sagen, man braucht für 30Mio URLs ca. 4GB RAM.

kommt bei mir auch so in etwa hin. Weil das mit unseren Datenmengen nicht mehr gehen kann habe ich einen Memory-Schutz eingebaut. Das löscht halt niedrige Zähler wenn kein Speicher mehr da ist. SVN 5649
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Listen generieren für statistische Analyse

Beitragvon MikeS » Di Feb 24, 2009 11:38 pm

Ich stelle ab heute Nacht mal die derzeitige URL-Liste von OpenAcoon zum Download bereit. Sind etwas über 230 Millionen URLs aufgeteilt auf 64 Dateien. Jede davon wird circa 170-180mb gross sein. Zusammen also etwa 11gb. Da muss ich das einfach auf mehrere Dateien aufteilen. :D

Die erste Teildatei ist schon online: http://www.openacoon.de/download/files/urllist/

Ich kann den vollen Export erst spät in der Nacht durchlaufen lassen, wenn der Server nur wenige Suchabfragen bekommt. Für die Erstellung der Listen müssen 87gb Daten von Platte gelesen werden. Das wird die Suchabfragen bei mir während der Zeit doch etwas einbremsen. :D

Viel Spass mit den Daten! Aber vorsicht bei der Bearbeitung. Ich bin mir nicht sicher, ob da nicht auch Ascii-Codes >127 vorkommen. Habe ich nämlich bisher nie überprüft.
MikeS
 
Beiträge: 88
Registriert: Mo Feb 25, 2008 6:30 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon Orbiter » Di Feb 24, 2009 11:55 pm

oh wow! Scheint aber zu laufen mit deiner Liste!
In SVN 5650 habe ich nun einen Aufrufparameter hinzugefügt, vor dem Filename muss nun noch ein '-stat' davor. Analog dazu kann man mit '-host' eine Liste der Hosts extrahieren.
MikeS, wenn du nichts dagegen hast, lade ich deine Liste auch auf Marcs Server hoch?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Listen generieren für statistische Analyse

Beitragvon MikeS » Mi Feb 25, 2009 12:46 am

Kein Problem. Kannst Du machen.

Die anderen Teillisten mache ich gleich noch fertig. In jedem Teil sind ja nur 3,5 Mio. URLs drin...
MikeS
 
Beiträge: 88
Registriert: Mo Feb 25, 2008 6:30 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon MikeS » Mi Feb 25, 2009 3:55 am

Die Dateien sind jetzt alle online. 10,6gb. Viel Spass :D
MikeS
 
Beiträge: 88
Registriert: Mo Feb 25, 2008 6:30 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon PCA42 » Mi Feb 25, 2009 5:53 am

Orbiter hat geschrieben:
PCA42 hat geschrieben:unsortiert 970 MB zu 476 MB sortiert.

dann wären ja viele doppelte drin, das wäre ziemlich blöd. Muss ich nachdenken wie das sein kann.

Nein, das Gzip ist nur viel effektiver, weil die Daten vorsortiert sind.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: URL-Listen generieren für statistische Analyse

Beitragvon Phiber » Mi Feb 25, 2009 6:42 am

So meine 22 Mio URL's sind hochgeladen, danke für die Zugangsdaten.
Das ganze ist jetzt aber noch unsortiert usw. dazu fehlt etwas der Arbeitsspeicher.

Hier mal Resultate von mir:
Code: Alles auswählen
003359748 - 2008   1119916
003416347 - ch   3416347
003686389 - security   526627
003725676 - forum   931419
004277826 - wiki   1425942
005822412 - php   2911206
006587866 - de   6587866
006605148 - index   1651287
007304950 - org   3652475
008752720 - wikipedia   1094090
015113690 - com   7556845
016452876 - html   5484292
026708994 - www   13354497
Zuletzt geändert von Phiber am Mi Feb 25, 2009 4:30 pm, insgesamt 1-mal geändert.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon daburna » Mi Feb 25, 2009 9:36 am

Ay, wir sammeln ja das halbe Netz ;-)
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: URL-Listen generieren für statistische Analyse

Beitragvon Orbiter » Mi Feb 25, 2009 9:53 am

bin schon dabei das tool umzustricken damit es auch die Datenmengen schafft, bsp. Lesen aus und Schreiben in gz-Dateien. Ausserdem werden wir split- sort- merge- Operationen brauchen. Das ist aber alles nicht schwer.
Das beste ist, das mir jetzt ein Performanceproblem in der Klasse yacyURL aufgefallen ist. Das bringt YaCy auch ganz schön was. Ein Teil ist schon gefixt.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Listen generieren für statistische Analyse

Beitragvon Low012 » Mi Feb 25, 2009 11:23 am

Das halbe Netz scheint wohl hohe Anforderungen zu stellen. ;) Den FTP-Server scheints zerlegt zu haben, jedenfalls habe ich eben einen Hinweis bekommen, dass man nicht drauf zugreifen kann. Bis heute Abend habe ich wahrscheinlich leider keine Möglichkeit, das zu reparieren. Ich melde mich, sobald es was Neues gibt. :(
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon soleil » Mi Feb 25, 2009 1:11 pm

Meine URLs sind im Netz, unter
http://dl.free.fr/qd3ONyd5j
soleil
 
Beiträge: 22
Registriert: Di Jan 13, 2009 11:36 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon Low012 » Mi Feb 25, 2009 1:43 pm

soleil hat geschrieben:Meine URLs sind im Netz, unter
http://dl.free.fr/qd3ONyd5j


Danke, werde ich heute Abend auf den Server laden!
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon Lotus » Mi Feb 25, 2009 2:16 pm

Code: Alles auswählen
002321280 - dailymotion   232128
002369064 - wordpress   296133
003184704 - php   1592352
003586524 - index   896631
003849447 - de   3849447
004323056 - org   2161528
004936584 - wikipedia   617073
008626284 - html   2875428
010099784 - com   5049892
015931628 - www   7965814

Meine top-10

@Low:
bitte sende auch mir einen Zugang wenn der Server wieder läuft. Ich habe 230MB im gz.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: URL-Listen generieren für statistische Analyse

Beitragvon PCA42 » Mi Feb 25, 2009 3:57 pm

Orbiter hat geschrieben:bin schon dabei das tool umzustricken damit es auch die Datenmengen schafft, bsp. Lesen aus und Schreiben in gz-Dateien. Ausserdem werden wir split- sort- merge- Operationen brauchen. Das ist aber alles nicht schwer.

Wenn die Files als Text vorliegen, einfach Linux "sort" für sortieren, mergen und Doubletten entfernen. Das kommt auch mit großen Files klar (z.B. mit meinen 3,8 GB). Danach kann sich die yacy-class zum Finden der Top-Begriffe durchwühlen.

Das soll doch eine einmalige Sammelaktion für die Top-Bestandteile der URLs werden?
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: URL-Listen generieren für statistische Analyse

Beitragvon Phiber » Mi Feb 25, 2009 5:32 pm

Habe noch ne Frage bezüglich der momentanen Sortierung:

Wird nun schon "effizient" sortiert um eben möglichst viele Bits zu sparen, oder einfach mal nach der Häufigkeit bestimmter Strings?

Auf was ich hinauswill:

"www" kommt 1 Million mal vor

"index" kommt 0.6 Millionen mal vor

Dann lohnt sich index mehr da man bei index 4 Bits*0.6Mio = 2.4*10^6 Bits spart, und bei www 2Bits*1Mio=2*10^6 Bits

Sofern da kein Denkfehler bei mir ist und ich die Grundidee überhaupt begriffen habe ;)

Ps. Danke für die verbesserte Sortierversion ohne OOM.

Edit: Ja hätte ich mal die Zahlen genauer studiert... Danke dir PCA42
Zuletzt geändert von Phiber am Mi Feb 25, 2009 6:20 pm, insgesamt 1-mal geändert.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon PCA42 » Mi Feb 25, 2009 5:59 pm

Das ist hier schon beachtet. Ich nehm mal die Werte von Lotus auszugsweise als Beispiel. Wenn die Werte auch andersrum sortiert werden, sieht man das auch besser.
Code: Alles auswählen
gespart                   Häufigkeit
015931628 - www           7965814
010099784 - com           5049892
008626284 - html          2875428
004936584 - wikipedia      617073
004323056 - org           2161528

Hier sieht man auch wunderbar, dass obwohl "org" häufiger vorkommt, weniger spart.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: URL-Listen generieren für statistische Analyse

Beitragvon Low012 » Mi Feb 25, 2009 6:29 pm

Der FTP-Server läuft wieder.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon Low012 » Mi Feb 25, 2009 7:26 pm

...und jetzt ist er auch über Port 21 erreichbar!

...und ich bin dabei, die Daten von MikeS und soleil herunter zu laden.
Zuletzt geändert von Low012 am Mi Feb 25, 2009 7:34 pm, insgesamt 1-mal geändert.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon PCA42 » Mi Feb 25, 2009 7:31 pm

Beim längeren Besuch der Badewanne sind mir noch folgende Ideen zu dem Thema gekommen, die vielleicht schon einen Schritt zu weit für diese Stelle sind. Möchte diese trotzdem mal hier reinbringen, damit die nicht verloren gehen:

1. Zwei Phrasen, die auf jeden Fall bei den Ersetzungen mit dabei sein sollten, sind bisher garnicht zu sehen. Und bevor die vergessen werden: "http://" und "ftp://". Aber das hatte Orbiter sicherlich in seinem kleinen schwarzen Büchlein ;)
2. Die Topbegriffe können ja auch noch sinnvoll erweitert werden: aus "com" kann ja ".com/" werden, spart noch mehr. Richtig was bringen wird da auch "wikipedia" durch ".wikipedia.org/" zu ersetzten. Kann man dann ja anhand der gesammelten URLs mal testen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: URL-Listen generieren für statistische Analyse

Beitragvon thq » Mi Feb 25, 2009 7:53 pm

Genau das hatte ich schon im 3. Beitrag geschrieben, ist aber gut das es hier nochmal steht ;)

Mein Upload läuft, sind 546MB.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon Orbiter » Mi Feb 25, 2009 10:46 pm

ja, es macht sicher Sinn die Position der häufig vorkommenden Wörter zu beachten und den Kontext, der dann immer dort steht hinzuzunehmen.
Was mir auch noch aufgefallen sind, sind die enormen Mengen an Hashes, Dezimalzahlen und anderen ID-Konstrukte, die man ebenfalls anders kodieren könnte. Bsp. kann man alle Zahlen bis 2^^16 mit 2 bytes codieren, die Zahlen haben aber bis zu 5 Stellen. So hätte man 3 Stellen gespart, wenn nicht die tatsache hinzukommt, dass man die Verwendung eines Zahlschlüssels auch noch mit einem Token markieren müsste. Das ergibt bsp. folgende Codierungen:
1-3 Dezimalstellen - keine Codierung
4-5 Dezimalstellen (bis 2^^16 - 1): Token + 2 byte short-value, 1-2 bytes Gewinn
5-8 Dezimalstellen(bis 2^^24 - 1): Token + 3 byte int-value, 1-4 bytes Gewinn
8-10 Dezimalstellen(bis 2^^32 - 1): Token + 4 byte int-value, 3-5 bytes Gewinn
10-13 Dezimalstellen(bis 2^^40 - 1): Token + 5 byte long-value, 4-7 bytes Gewinn
13-15 Dezimalstellen(bis 2^^48 - 1): Token + 6 byte long-value, 6-8 bytes Gewinn
usw.
Ein ähnliches Bild ergibt sich für Hex-Codierungen, mit etwas weniger Ausbeute.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Listen generieren für statistische Analyse

Beitragvon PCA42 » Do Feb 26, 2009 5:20 am

Das mit den Zahlen ist eine gute Idee. Bei meiner Top-Liste waren nämlich auch die Jahreszahlen mit bei.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: URL-Listen generieren für statistische Analyse

Beitragvon lulabad » Do Feb 26, 2009 8:45 am

MikeS hat geschrieben:Ich stelle ab heute Nacht mal die derzeitige URL-Liste von OpenAcoon zum Download bereit. Sind etwas über 230 Millionen URLs aufgeteilt auf 64 Dateien. Jede davon wird circa 170-180mb gross sein. Zusammen also etwa 11gb. Da muss ich das einfach auf mehrere Dateien aufteilen. :D

Ich hab die mal runtergeladen und zusammen gehängt.
Bei 44Mio ist er mir dann ausgestiegen mit einem invalid URL Dingsbums (habs leider nicht mehr genau im Kopf). Das sollte man eventuell noch abfangen und die URL dann einfach überspringen.
Ausgeben wäre aber zur Kontrolle auch nicht schlecht, denn im yacy Index sollte sowas ja eigentlich nicht vorkommen.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: URL-Listen generieren für statistische Analyse

Beitragvon MikeS » Do Feb 26, 2009 10:48 am

Ausgeben wäre aber zur Kontrolle auch nicht schlecht, denn im yacy Index sollte sowas ja eigentlich nicht vorkommen.


Meine URL-Liste stammt NICHT aus Yacy, sondern aus meiner eigenen Suchtechnik.
MikeS
 
Beiträge: 88
Registriert: Mo Feb 25, 2008 6:30 pm

Re: URL-Listen generieren für statistische Analyse

Beitragvon lulabad » Do Feb 26, 2009 11:44 am

MikeS hat geschrieben:Meine URL-Liste stammt NICHT aus Yacy, sondern aus meiner eigenen Suchtechnik.

Na, das weiss ich doch. Ich meinte nur dass ein solcher "Fehler" im yacy Index nicht vorkommen sollte, daher wurde das auch bisher nicht abgefangen. Bei URLs ausserhalb von yacy, wie bei dir, müsste man das abfangen und überspringen. Falls sowas auftritt und es sich um einen yacy Index handelt, müsste man wahrscheinlich genauere Nachforschungen angehen. Deswegen das mit der Ausgabe.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: URL-Listen generieren für statistische Analyse

Beitragvon PCA42 » Do Feb 26, 2009 8:12 pm

So, einen Zwischenstand.
Ich hab alle URL-Listen vom ftp-Server dafür genommen. Acoon hab ich außen vor gelassen, weil es wohl Probleme beim Durchlauf der URLs gab. Nach sortieren, zusammenfügen und entfernen der doppelten Einträge sind die ursprünglichen 7GB (entpackt) auf 5,5 GB geschrumpft. Insgesamt sind das 83,7 Mio URLs.

Die Top10 bisher:
Code: Alles auswählen
100860498 - www   50430249
060176602 - com   30088301
059616801 - html   19872267
027800424 - wikipedia   3475053
024650484 - org   12325242
024163736 - index   6040934
023908599 - de   23908599
021394426 - php   10697213
013762569 - wiki   4587523
013309999 - ch   13309999

Phrasen, wo ich gestaunt hab: "diplodocs" (1.17Mio), "4players" (1.28 Mio), "chefkoch" (1Mio), "aachen" (1.11 Mio) und "jaas" (1.8 Mio).
Die Top1000 als Download : >Klick<
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Nächste

Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron