Managed Index - was so fehlt

Ideen und Vorschläge sind willkommen.

Managed Index - was so fehlt

Beitragvon lulabad » So Apr 19, 2009 8:51 am

Ich beschäftige mich momentan mit dem Aufbau eines Intranetindex der voll gemanaged werden soll. Das bedeutet der gesammte Index soll überwacht und eventuell auch angepasst werden. Yacy bietet dazu bereits einige Werkzeuge an, die jedoch noch nicht ausreichen. Ich möchte hier mal zusammenfassen, wie ich mir das vorstellen könnte.

Content Analyse
Ich muss wissen, was in meinem Index ist. Es gibt ja bereits die Möglichkeit auf der IndexControlURLs_p.html mir die Top 100 Domains anzeigen zu lassen. Das ist schon mal ein sehr guter Ausgangspunkt. Ich weiß aber nicht was nun unterhalb der Domain alles indexiert wurde. Hier würde ich mir sowas wie einen Baum vorstellen, den ich aufklappen kann und er mir dann anzeigt, welche Pfade er unterhalb der Domain verfolgt hat. Dadurch könnte man sehr schnell erkennen, ob er vielleicht unsinnige Pfade indexiert hat. Unerwünschte Pfade sollte man von dieser Seite aus gleich in die Blackliste aufnehmen und eventuell aus dem Index entfernen (IndexCleaner) können.
Zudem möchte ich wissen, welche Pfade von der Blackliste ausgefiltert wurden, am besten gleich mit der Anzeige welcher Eintrag in der Blackliste dafür verantwortlich war. Außerdem welche Pfade generell ignoriert wurden durch die robots.txt und eventuelle Fehler beim abrufen der URL, mit der Möglichkeit diesen Fehler zu löschen und die URL wieder in den Crawler schicken. Zudem möchte ich wissen, ob noch URLs von dieser Domain in der Crawlqueue sind.

URL options filtering
Hier gehts darum, bestimmte Optionen aus der URL (alles was nach ? steht, also sowas wie posting.php?mode=post&f=9) zu entfernen. Also sowas wie eine Blackliste für die URL Optionen. Bei den sids wird das ja bereits gemacht. Ich möchte das aber erweitert für beliebige, selber definierte Optionen machen können. Damit hab ich die Möglichkeit eventuell doppelte URLs auszufiltern. Das ist vor allem bei Foren immer noch der Fall, dass teilweise unsinnige Optionen die gleiche Seite anzeigen, aber für yacy es eben 2 verschiedene URLs sind.
Beispiel: http:// forum.de/show.php?t=2222 und die URL http:// forum.de/show.php?t=2222&highlight=
Hier möchte ich das das highlight von yacy ignoriert wird. Das ganze sollte dann aber nur für bestimmte Domains beschränkt werden können.

Crawlen
Domain abhängige Einstellungen der Crawl Parameter. Also ich starte einen Crawl von einer Seite die Links auf andere Seiten hat. Beim Crawlstart stelle ich zum Beispiel den Crawlfilter ein. Das Problem ist, dass diese Einstellungen auf alle anderen URLs angewendet werden.
Es müsste die Möglichkeit geben, pro Domain die Crawlparameter festlegen zu können. Diese Parameter würden dann von jedem beliebigen Startpunkt aus angewendet werden.
Beispiel: Ich habe eine Domain A, dort stelle ich ein, das keine URLs mit ? gecrawlt werden sollen. Dann habe ich die Domain B, dort sollen nur bis 10000 URLs verfolgt werden aber alle URLs mit ?. Gestartet wird aber der Crawl von Domain C, welche Links auf A und B hat. Nun soll der Crawler, sobald er die Links verfolgt und auf die anderen Domains trifft, die entsprechenden Crawlparameter berücksichtigen.

manuelle Wortzuweisung
Leider weiß man die zugewiesenen Wörter zu einer URL nicht im Klartext, das ist auf jeden Fall ein Nachteil. Aber egal, geht auch anders.
Man müsste pro Domain / URL manuell festlegen können, welche Wörter damit assoziiert werden. Zum einen müsste man Wörter manuell entfernen können, sowas wie eine Blackliste für Wörter. Zum anderen aber auch Wörter manuell hinzufügen. Diese würde dann auch im Ranking mehr Beachtung finden, da sie redaktionell erfolgt sind und daher auch überprüft wurden.


Anmerkungen:
Ein überwachter Index ist nur bis zu einer bestimmten Größe sinnvoll / machbar. Dabei geht es gar nicht so sehr um die Anzahl der Links, sondern um die Anzahl der Domains. Peers mit 1Mio Domains kann man nicht mehr manuell überwachen. Das ist aber auch gar nicht das Ziel. Momentan hab ich ca. 70 Domains in meiner DB. Diese Größe lässt sich noch ziemlich gut überwachen.

Alles was ich oben geschrieben habe, sind keine Wünsche ala "das würde ich vielleicht einsetzten wenn es sie gäbe" sondern alles Dinge, die ich tatsächlich gebraucht hätte / habe.

Einige Dinge die ich oben erwähnt habe, sind bereits möglich, jedoch ist alles über zig Seiten verteilt. Man kann praktisch alles was ich geschrieben habe auf eine Seite bringen, zumindest aber von einer Seite aus zugreifbar machen, so dass man nicht ständig in den Menüs um herspringen muss.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron