Plugin-Architektur für YaCy

Ideen und Vorschläge sind willkommen.

Plugin-Architektur für YaCy

Beitragvon kilian » Sa Mär 24, 2012 4:35 pm

Hi,
Vorschlag: Entwicklung einer Pluginarchitektur für YaCy.

Man könnte eigentlich Parser als Plugin anbieten, Crawlers (FTP/SMB), Suchfrontends (z.b. mobil), Sucherweiterungen z.b. !wiki suche wie bei duckduckgo, Webapps wie das persönliche Wik, den Proxy, DHT

YaCy wird dann mit einem Satz an plugins ausgeliefert, wenn man dann spezielle sachen braucht wie ftp-indexierung, smb-indexierung, oder vielleicht ein mobiles frontend, muss man das entweder erst herunteladen, oder einfach irgendwo ein häkchen setzen.

Vorteile
  • Die Oberfläche sollte einfacher werden, da nur noch das drauf ist, was man wirklich braucht.
  • Bessere Wartbarkeit durch bessere Modularisierung
  • Einfachere Zusammenarbeit: Genaue Aufgabenverteiliung.
  • "Schlanker". Vermutlich geringerer Speicherverbrauch
  • Einfachere Mitgestaltung. (Wenn die Plugin-Architektur gut Dokumentiert ist) -> einfache Verteilung von Anwendungen
  • eventuell, sehr spezielle Anpassungen, die niemals in den Hauptzweig einfließen würden
  • einfaches Updaten

Ich weiß nicht wirklich wie so eine Pluginarchitektur aussehen müsste. Aber ich denk mal, da kann man sich auch viel von anderen Java-Projekten anschauen.
kilian
 
Beiträge: 79
Registriert: Mi Feb 23, 2011 11:34 am
Wohnort: Bayern

Re: Plugin-Architektur für YaCy

Beitragvon Orbiter » Di Apr 17, 2012 10:56 am

es wäre in der Tat besser wenn wir mehr modulare Komponenten hätten. Leider ist das Projekt in den Jahren ziemlich verwachsen. Ich hab mich immer wieder bemüht die Teile besser zu strukturieren, aber so weit dass wir Interfaces für Plug-In Module hätten sind wir noch nicht.

Als guten Anfang wäre es, wenn wir den Crawler separieren könnten. Vielleicht gehe ich das ja sogar an. Das geht aber nicht von heute auf morgen...
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Plugin-Architektur für YaCy

Beitragvon Marek » Do Apr 26, 2012 1:36 pm

Hallo,

ohne zu wissen, wieso in vielen sehr komplizierten und kritischen und daher aufwendigen Bereichen ähnliche Mehrfachentwicklungen statt fanden/finden statt Zusammenarbeit oder ob bei den freien apache modulen entscheidendes fehlt und weil ihr ja auch auf apache solr zugeht (wobei Yacy als Frontend ja super weit entwickelt ist, während bei solr ja eben das noch fehlt und gerade in Angriff genommen wird mit Solaritas bzw. VelocityResponseWriter):

Wie wäre es mit apache nutch als schätzungsweise weit entwickeltes und verbreitetes und funktionierendes (aber für laien ohne Textconfig und Regex-Können kaum einrichtbares - daher Yacy Nutzung) Crawl-Modul?

Gruss,
Marek
Marek
 
Beiträge: 27
Registriert: Mi Jan 25, 2012 1:27 am
Wohnort: Berlin

Re: Plugin-Architektur für YaCy

Beitragvon Orbiter » Do Apr 26, 2012 1:54 pm

separieren heisst nicht ersetzen...

Beim YaCy crawler bin ich überzeugt dass wir das was wir da haben nicht so schnell aus Nutch raus holen können. Front-End, Monitoring, Balancing, host-spezifisches Throttling, alles mit xml api zum monitoring .. das hat nutch nicht. Von einem GSA-user hab ich ausserdem gehört dass auch die GSA nahezu nichts an Infos raus gibt was warum wann geladen wurde oder nicht.

oder anders ausgedrückt: wenn du nutch benutzen willst kannst du das machen und dann YaCy über die QuickCrawl-API (/QuickCrawlLink_p.xml) die URLs übergeben.
Oder: lade URLs einfach mit den wget-crawl Optionen indem du dem wget sagst es soll YaCy als Proxy benutzen. Die Proxy-Funktion ist daher eigentlich das perfekte API um externe Crawler drauf zu setzen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron