Datenbestand prüfen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Datenbestand prüfen

Beitragvon bluumi » Fr Dez 02, 2011 2:40 pm

Hallo zusammen, ich würde gerne den datenbestand meines Peers entrümpeln. :roll:
Ich habe rund 107Mio links und 15.4Mio Words. Gibt es eine Möglichkeit, dass er von den 107 mio welche ausmistet? Wie erwähnt ist der Datenbestand 2 Jahre alt und ich schätze es könnte einiges wegfallen, wenn er nur überprüft ob die Links noch gibt. Ich habe eigentlich keine all zu grosse Lust alles zu löschen und nochmals auf zu bauen :ugeek:

Grüssli
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Datenbestand prüfen

Beitragvon Quix0r » Mo Jan 02, 2012 4:57 am

Ich glaube, du hast viele Kleinbilder im Index. Derzeit koennen diese nur per Blacklist rausgeworfen werden. Schoen waere hier eine Konfigeinstellung, wo die Mindesthoehe und -breite eingestellt werden koennen und dann autmatisch der Index bereinigt wird (bzw. diese nicht aufgenommen werden). Allerdings muessten dazu die Bilder geladen werden, da die Angaben im IMG-Tag nicht immer zuverlaessig sind.

Ich schaetze auch, dass dein Index voll von Tracker-Pixel-URLs ist, da diese alle sehr unterschiedlich sind und sehr (!) viele URLs werden koennen. Wenn du magst, kannst du gerne die Eintraege von meinem Peer 'free-search' dir ziehen. Ich kann auch alternativ diese als ZIP-Archiv hochladen.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Datenbestand prüfen

Beitragvon Vega » Di Jan 03, 2012 10:20 am

Ich habe dazu unter http://forum.yacy-websuche.de/viewtopic.php?f=5&t=1917&hilit=aufr%C3%A4umen einen alten Thread gefunden, allerdings weis ich nicht ob das aufgrund der neuen Datenstrukturen noch verwendbar ist, dazu müsste sich Michael oder jemand der sehr tief "drinsteckt" äußern.

Das ganze müsste weitergebaut/Entwickelt werden, meine Idee dazu wäre (für die ToDo Liste):

Erstellen eines Service-Applets, das sollte folgendes könnnen:

Den Peer in den Wartungsmodus setzen, DHT/Crawl wird unterbrochen, die Datenbank(en) wird wie beim Shutdown geschlossen und heruntergefahren.
Das Webinterface bleibt erreichbar, auf der Suchseite wird ein Eintrag eingeblendet/oder die Suchseite wird ersetzt durch eine "Wartungsmodusseite".....

Im Servlet sollte folgendes möglich sein
- mergen der Blobs
- Überflüssige URLs bereinigen
- ???? Andern/Editieren der Metadaten ????

Weiter Wünsche, Ideen - ist sowas umsetzbar ?

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Datenbestand prüfen

Beitragvon bluumi » Mi Jan 04, 2012 5:39 pm

Vega hat geschrieben:Ich habe dazu unter http://forum.yacy-websuche.de/viewtopic.php?f=5&t=1917&hilit=aufr%C3%A4umen einen alten Thread gefunden, allerdings weis ich nicht ob das aufgrund der neuen Datenstrukturen noch verwendbar ist, dazu müsste sich Michael oder jemand der sehr tief "drinsteckt" äußern.

Vielen Dank für den Tip. Lustigerweise kann ich mich jetzt wo Du es sagst, daran errinnern dass ich das damals auch mal gemacht hatte :)

Naja, leider ist wirklich nicht mehr alles da wo sein müsste:
Code: Alles auswählen
to do a complete clean-up of the url database, start the following:

java -Xmx1000m -cp classes de.anomic.data.URLAnalysis -incollection DATA/INDEX/freeworld/TEXT/RICOLLECTION used.dump
java -Xmx1000m -cp classes de.anomic.data.URLAnalysis -diffurlcol DATA/INDEX/freeworld/TEXT used.dump diffurlcol.dump
java -Xmx1000m -cp classes de.anomic.data.URLAnalysis -export DATA/INDEX/freeworld/TEXT xml urls.xml diffurlcol.dump
java -Xmx1000m -cp classes de.anomic.data.URLAnalysis -delete DATA/INDEX/freeworld/TEXT diffurlcol.dump

bscw:~/yacy # DATA/INDEX/freeworld/TEXT/RICOLLECTION
-bash: DATA/INDEX/freeworld/TEXT/RICOLLECTION: No such file or directory

Das Verzeichnis RICOLLECTION gibts nicht mehr :)
Ich glaube das ganze steckt jetzt in den Blobs im SEGMENTS Verzeichnis :?:
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Datenbestand prüfen

Beitragvon bluumi » Do Jan 05, 2012 9:05 am

Habe zwischenzeitlich jetzt erneut den Index Cleaner nach Blacklist laufen. (http://localhost:8080/IndexCleaner_p.html) - was mich wundert ist dass es schon wieder weitere Amazon Urls findet.
Werden bei RemoteCrawls diese nichht auch ausgeschlossen?
Auf jedenfall kann ich vermutlich noch die eine odre andere Mio. Links verliehren auf diese Weise.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Datenbestand prüfen

Beitragvon bluumi » Do Jan 05, 2012 9:09 am

Quix0r hat geschrieben:Wenn du magst, kannst du gerne die Eintraege von meinem Peer 'free-search' dir ziehen. Ich kann auch alternativ diese als ZIP-Archiv hochladen.

Wenn ich Dich richtig verstehe, hast Du eine Blacklist, welche diese Tracker-Pix-Urls löschen hilft? - Gerne nehme ich Deine Liste an. Leider finde ich auf Deinem Peer jedoch keine Importierbare Blacklist :)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Datenbestand prüfen

Beitragvon Quix0r » Do Jan 05, 2012 1:01 pm

Das habe ich mich auch gewundert, wieso er URLs im Index hat (plus diese in der Bildersuche anzeigt), obwohl diese durch die Blacklist ausgeschlossen sind. Dazu habe ich dann einen Patch in meiner Gitorious-Repository bereitgestellt (ich weiss nicht, ob Orbiter das Patch bereits gemergt hat).

Ich habe dort noch mehr getan als nur das, vielleicht stelle ich das alles mal dort vor.

Dass du keine Eintraege beir mir finden kannst, wundert mich. Wann genau hast du dies versucht? Vielleicht gab es hier eine Exception, die ich dann im Logfile aufsuchen kann.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Datenbestand prüfen

Beitragvon bluumi » Do Jan 05, 2012 3:57 pm

Quix0r hat geschrieben:Dass du keine Eintraege beir mir finden kannst, wundert mich. Wann genau hast du dies versucht? Vielleicht gab es hier eine Exception, die ich dann im Logfile aufsuchen kann.

Heute Morgen, zu dem Zeitpunkt als ich die Forumsmsg gepostet habe, habe ich versucht. Aber auch gerade eben. Ich glaube also kaum, dass es vom Zeitpunkt abhänig ist. Zum Test habe ich dann noch ein paar andere Peers probiert und dort bekomme ich eine Liste von Einträgen.
Dateianhänge
YaCy 'KSBA-BSCW' Shared Blacklist.jpg
YaCy 'KSBA-BSCW' Shared Blacklist.jpg (36.76 KiB) 2407-mal betrachtet
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Datenbestand prüfen

Beitragvon Quix0r » Fr Jan 06, 2012 3:23 am

Ich habe selbiges Problem auf meinem Peer zulu289 und kann das somit reproduzieren, ich gehe das gleich mal an.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Datenbestand prüfen

Beitragvon bluumi » Fr Jan 13, 2012 4:44 pm

Ich wäre noch immer erfreut, wenn es eine Lösung gäbe für das bereinigen der Datenbestände.

Die alten Befehle lassen sich ja nicht mehr auf die neuen Daten-Blobbs anwenden, gibt es eine andere Möglichkeit Yacy (offline oder Online) zum überprüfen zu zwingen?

Das abarbeiten der Blackliste habe ich inzwischen zu 50% geschafft, jedoch konnte es in der Zeit nur rund 600'000 URLs löschen. Es wurden jedoch in der selben Zeit wieder viele neue URLs in die Peer-Datenbank aufgenommen und so ist der Index jetzt wieder grösser.

@Quix0r: Ich bin noch immer an ein paar Blacklist Strings interessiert, welche helfen die TrackerPix zu eliminieren.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Datenbestand prüfen

Beitragvon Quix0r » Sa Jan 14, 2012 12:48 pm

@bluumi: Ich hab meine Blacklists alle in ein ZIP weggespeichert:
http://free-search.yacy/repository/blacklists.zip

Oder alternativ:
http://free-search.homelinux.org:8090/r ... klists.zip

Edit: Habe meine Blacklists wieder aktualisiert, bitte erneut runterladen (das kann mal mehr, mal weniger mehr vorkommen).
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Datenbestand prüfen

Beitragvon bluumi » Mo Jan 16, 2012 12:20 pm

Quix0r hat geschrieben:http://free-search.homelinux.org:8090/repository/blacklists.zip

Danke, habe Deine blacklisten geladen und eingefügt. Zusätzlich hast Du mir noch die Idee geliefert dass man ja mehrere Blacklisten haben kann :-D - Also schön unterteilt. Ich bin gespannt wie effektiv die Liste sich auswirkt.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Datenbestand prüfen

Beitragvon Quix0r » Di Jan 17, 2012 7:51 pm

Ich sperre allerdings auch die Wikipedia, da alleine diese zirka 2 GB RAM einnehmen wuerde...

Edit: thumbs.black ist nochmals neu.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Datenbestand prüfen

Beitragvon Lotus » Di Jan 17, 2012 9:12 pm

Quix0r hat geschrieben:Ich sperre allerdings auch die Wikipedia, da alleine diese zirka 2 GB RAM einnehmen wuerde...

Die hast du ja normalerweise nicht alleine auf deinem PC. ;-)
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Datenbestand prüfen

Beitragvon gaston » Mi Jan 18, 2012 1:46 am

Ich habe mir die auch mal heruntergeladen. Dadurch habe ich auch mein Problem mit dem "Spezial-Regex" von YaCy gelöst, das zusätzliche ".*" am Anfang.

Den Wikipedia Eintrag habe ich aber auch sofort gelöscht.

Das Thema war aber "Datenbestand prüfen", geht das jetzt überhaupt nicht mehr oder kann das wieder aktiviert werden?
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm

Re: Datenbestand prüfen

Beitragvon bluumi » Mi Jan 18, 2012 3:15 pm

Ich habe bei mir auch noch die hosts Liste von mvps.org eingefügt, knapp 15'000 Hosts :)
Es hat zwar einiges "doppeltes" was man mit einer RegEx besser ausdrücken könnte, aber bisher konnte ich einiges entfernen. Trotz allem wäre vermutlich eine Off-line Prozedur schneller (?)
Bis jetzt konnte ich nur gut 2% des Bestands durch die Blackliste ausscheiden. :|
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Datenbestand prüfen

Beitragvon gaston » Fr Jan 20, 2012 2:05 pm

Hier mal ein paar RegExp um kleine "Bilder" zu blocken. Sind noch nicht fertig, aber schon ganz gut.

Code: Alles auswählen
.*.*/(?i)(.*/)?(icon(s)?|button(s)?)(/|\.|_|-).*\.(gif|png|jpg)$
.*.*/(?i)(.*/)?thumb(s)?(/|\.|_|-).*
.*.*/(?i)(.*/)?wp-content/(plugins|themes)/.*
.*.*/(?i).*(icon|/icon.*|icons/.*|button)\.(gif|png|jpg)$

Damit können einige Einträge aus thumbs.black von Quix0r ersetzt und gelöscht werden. Auch wird mehr gefunden, aber lange noch nicht alles.

Ihr könnt ja hier schreiben wenn was fehlt, oder zu viel "gelöscht" wird.
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm

Re: Datenbestand prüfen

Beitragvon bluumi » Fr Jan 20, 2012 3:55 pm

gaston hat geschrieben:Ihr könnt ja hier schreiben wenn was fehlt, oder zu viel "gelöscht" wird.


Ich habe mir noch ein paar Counter hinzugefügt.
Code: Alles auswählen
1??.cqcounter.com/.*
*.stats.misstrends.com/.*
*.free-counter.co.uk/*
*.free-counters.co.uk/*
*.hittail.com/.*
*.mystat-in.net/.*


Und den verwende ich um Advertising zu reduzieren. (ich weiss nicht wie man 0-9 sagt)

Code: Alles auswählen
ad(|0|1|2|3|4|5|6|7|8|9|d|img|s|v).*./.*
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Datenbestand prüfen

Beitragvon gaston » Fr Jan 20, 2012 4:44 pm

bluumi hat geschrieben:Und den verwende ich um Advertising zu reduzieren. (ich weiss nicht wie man 0-9 sagt)

Code: Alles auswählen
ad(|0|1|2|3|4|5|6|7|8|9|d|img|s|v).*./.*

Ich habe die Zeile mal etwas geändert
Code: Alles auswählen
(?i)(?:.\.)?ad(?:\d|d|img|log|s(?:(?:\d)|erver)?|v(?:.)?)?\..*/.*
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm

Re: Datenbestand prüfen

Beitragvon bluumi » Di Feb 07, 2012 7:22 pm

Danke für die schönen RegEx. von den 107 Mio. URLS konnte ich so rund 5 Mio. ausmisten. Immerhin habe ich jetzt nochmals ein paar Mio. Platz, bis der Index platzt :twisted:
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Datenbestand prüfen

Beitragvon iqualfragile » So Apr 22, 2012 11:16 am

kurze mikroregex mit der man alle wikipedia-wikis auser in bestimmten sprachen ausschließen kann (z.b. französisch)
Code: Alles auswählen
[^(en)(de)].wikipedia.org/.*

welchers nicht funktioniert
hat jemand eine idee wie man das macht, ich bin da nicht so bewandert
iqualfragile
 
Beiträge: 60
Registriert: Do Jan 19, 2012 8:54 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron