Wiki indizieren

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Wiki indizieren

Beitragvon tikkel » Mo Jan 04, 2010 8:39 am

Hallo,

ich möchte gerne mein Wiki indizieren, dass eine "Anmeldung mit Passwort" (in einem Browser-Cookie gespeichert) benötigt. Geht dass irgendwie?

Gruß Marko
tikkel
 
Beiträge: 12
Registriert: Mo Jan 04, 2010 7:40 am

Re: Wiki indizieren

Beitragvon Low012 » Mo Jan 04, 2010 10:27 am

Was für ein Wiki ist es denn? Wenn es ein Mediawiki ist, müsstest du einen Dump machen können, den YaCy dann direkt einlesen kann. Damit umgehst du das Passwort-Problem (kann meines Wissens mit YaCy nicht ohne Änderungen am Code gelöst werden) und das Parsen müsste auch noch schneller gehen, als wenn du die Inhalte über den Crawler erfasst.

Auf http://localhost:8080/IndexImportWikimedia_p.html kannst du den Import starten. Hier die Anleitung, wie man Daten aus dem Mediawiki exportiert: http://en.wikipedia.org/wiki/Help:Export

Ich habe bis jetzt nur vor längerer Zeit mal exportierte Wiki-Daten importiert, aber nie selbst exportiert. Ich kann also nur hoffen, dass es so wie in der Anleitung beschrieben funktioniert.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Wiki indizieren

Beitragvon Lotus » Mo Jan 04, 2010 12:50 pm

Eventuell funkt der Snippet-Fetch noch dazwischen. Details habe ich nicht im Kopf, aber vielleicht jemand anders.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Wiki indizieren

Beitragvon tikkel » Mo Jan 04, 2010 2:26 pm

- es ist MediaWiki Version 1.15.1

- unter "Spezial:Exportieren" kann ich zwar einzelne Seiten exportieren
- aber beim import verlangt YaCy das ganze als: "file name must end with 'pages-articles.xml.bz2' "
- irgendwie erscheint mir dass auch nicht sonderlich praktikabel zu sein, denn in einem Wiki ändert sich doch ständig was

- ich habe dann YaCy als Proxy benutzt, aber auch hier tut er nix vom Wiki indizieren (ist wohl aus Sicherheitsgründen nicht vorgesehen?)
tikkel
 
Beiträge: 12
Registriert: Mo Jan 04, 2010 7:40 am

Re: Wiki indizieren

Beitragvon Orbiter » Mo Jan 04, 2010 4:12 pm

Hallo,

- unter "Spezial:Exportieren" kann ich zwar einzelne Seiten exportieren aber beim import verlangt YaCy das ganze als: "file name must end with 'pages-articles.xml.bz2' "

der Import war auf die Wiki exports ausgerichtet, die ich da raus bekommen habe und die es bei Wikipedia gibt. Falls du da andere Formate hast, beschreibe mal was da dann raus kommt. Ich kann dann den Import ggf. anpassen.

- irgendwie erscheint mir dass auch nicht sonderlich praktikabel zu sein, denn in einem Wiki ändert sich doch ständig was

nun ja, dann musst du den Vorgang halt über einen Cronjob scripten, das sollte einfach sein. Einen anderen Weg sehe ich zur zeit nicht, da YaCy zur Abfrage des Webinterfaces noch keine Authentify-Methoden nutzt, und zwar aus 2 Gründen: was man nicht ohne PW abfragen kann, soll man auch nicht ohne PW finden dürfen und: es gibt so viele Authentify-Methoden dass es wenig Sinn macht hier einzelne bestimmte zu implementieren.
Orbiter
 
Beiträge: 5799
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wiki indizieren

Beitragvon tikkel » Di Jan 05, 2010 10:45 am

- Ich schau mal, ob der Administrator auf dem Wiki-Server ein "yacy" installiert und über "localhost" ohne Authentifizierung die Site crawlt.
- Anschließend sollte sich doch der "dortige yacy" mit "meinem yacy" austauschen können, oder?
tikkel
 
Beiträge: 12
Registriert: Mo Jan 04, 2010 7:40 am

Re: Wiki indizieren

Beitragvon Lotus » Di Jan 05, 2010 1:14 pm

tikkel hat geschrieben:- Anschließend sollte sich doch der "dortige yacy" mit "meinem yacy" austauschen können, oder?

Ja, einfach den Ordner kopieren, in dem die Daten liegen, normalerweise DATA.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Wiki indizieren

Beitragvon Orbiter » Di Jan 05, 2010 9:23 pm

also gehen sollte das, nur ist das ja nun nicht gerade der Wusch eures Zugangskonzeptes, denn wenn man ein Passwort für den Wiki-Zugang brauch, dann sollten die Index-Daten auch nicht in die freie Wildbahn. Wenn dann Ergebnisse davon kommen, führt das dann wahrscheinlich auch dazu dass Ergebnisse aufgrund der Verifikation dann auch verworfen werden, wenn sie nicht ohne PW zugänglich sind. Das eigentliche Problem liegt hier aber nicht bei YaCy sondern bei der Überlegung welche Daten auf welche Weise öffentlich sein sollen oder nicht.
Orbiter
 
Beiträge: 5799
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wiki indizieren

Beitragvon tikkel » Mi Jan 06, 2010 11:49 am

- was genau meinst Du mit Verifizieren?
- würde quasi "mein yacy" die Indexe vom "dortigen yacy" verifizieren?
- dann würde meine Idee nicht funzen :o(

- ich selbst habe ja einen account auf dem wiki
- wenn jemand ohne account auf die Suchergebnisse zugreifen will, wird er vom Wiki ja abgewiesen

- stellt sich meiner Meinung nach eher die Frage, wie man diese Suchergebnisse präsentiert bekommt (Vorschau-Text)
- und wie man die Wörter im Index vor fremden Blicken schützt
tikkel
 
Beiträge: 12
Registriert: Mo Jan 04, 2010 7:40 am

Re: Wiki indizieren

Beitragvon Lotus » Mi Jan 06, 2010 1:01 pm

YaCy verifiziert jeden Treffer, imdem die gefundene Seite geladen wird. Das führt dazu, dass altes nicht angezeigt wird, und neues im Index aktualisiert wird.

Ich habe aber noch eine Idee, die allerdings etwas mehr Aufwand benötigt:
Die Zugangskontrolle könnte YaCy über die IP Zugriff erlauben, und Suchergebnisse werden über die YaCy-API auf einer Seite mit Zugangskontrolle dargestellt.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron