Erweiterung von Statistics about top-domains in URL Database

Ideen und Vorschläge sind willkommen.

Erweiterung von Statistics about top-domains in URL Database

Beitragvon LA_FORGE » Di Okt 18, 2011 4:20 pm

Hi,

ich fände es toll, wenn man auf der Seite "IndexControlURLs_p.html" unter dem Punkt "Statistics about top-domains in URL Database" sich auch die bottom/lowest URLs in der Datenbank auflisten lassen könnte, also die URLs die am wenigsten im Index vertreten sind.

Viele Grüße

Stefan
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Erweiterung von Statistics about top-domains in URL Data

Beitragvon LA_FORGE » Mo Mai 06, 2013 5:56 pm

Wäre das sehr schwer zu implementieren? Ich würde solch eine Funktion sehr schätzen.
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Erweiterung von Statistics about top-domains in URL Data

Beitragvon Orbiter » Mo Mai 06, 2013 8:08 pm

im Prinzip ist diese Funktion mit Solr nun überflüssig weil man das per facet query bekommen kann, z.B.
Code: Alles auswählen
http://localhost:8090/solr/select?q=*:*&defType=edismax&start=0&rows=0&core=collection1&facet=true&facet.field=host_s&facet.sort=count&facet.limit=100000


zeigt dir 100000 hosts in einer XML an, sortiert nach häufigstem host zu wenigstem. Leider habe ich noch nicht herausgefunden wie man die Sortierungsreihenfolge ändern kann, das ist nicht gerade der Standardfall. Bei meinem 11Mio-Index habe ich da mit 100000 hosts in der Liste immer noch nicht diejenigen mit nur einem Treffer drin...

Die Doku zu den Facetten ist hier:
http://wiki.apache.org/solr/SimpleFacet ... facet.sort
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Erweiterung von Statistics about top-domains in URL Data

Beitragvon LA_FORGE » Di Mai 07, 2013 11:16 am

Vielen Dank
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Erweiterung von Statistics about top-domains in URL Data

Beitragvon LA_FORGE » Di Mai 07, 2013 2:31 pm

Ich hab spaßeshalber nochmal eine 0 drangehängt bei den Ausgaben und die Ergebnisse mit wget in eine lokale Datei XML-Datei geschrieben. Die hat jetzt über 40 MB :D und es werden auch Domains angezeigt wo nur "1" Result vorhanden ist. Es gibt nur wenige Editoren die so große Dateien blitzschnell öffnen können, VEdit (64-Bit-Version) konnte mir das XML nicht richtig darstellen, der Firstobject XML Editor kann es (auch blitzschnell), über die Align-Funktion (Shift-F8 wenn die Datei geöffnet ist). Genial wäre es doch, wenn sich 10 (20/30/40) von diesen Domains wo nur 1 Ergebnis/Seite im Index vorhanden ist, mit YaCy automatisch ermitteln ließen und wenn man sie als Crawl Start Point weiterverwursten könnte.
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron