Google oder YaCy

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Google oder YaCy

Beitragvon Reilly » Mi Apr 04, 2012 12:03 pm

Tag allerseits!

Für's Intranet und einige Ordner auf einem geteilten Server benutze ich zurzeit eine Google Appliance mit einer Lizenz für maximal 400.000 Dokumente im Index.
Da es aber auch gut 4 Millionen sein könnten, kam die Überlegung auf, auf YaCy umzusteigen, da eine Lizenz für 4 Millionen das Budget etwas übersteigen würde.

Meine Fragen sind daher:
Lässt sich YaCy genau so einfach konfigurieren wie Google Appliance?
Sind die Ergebnisse genau so gut (oder besser) wie die von Google?
Was durchsucht YaCy alles? (auch Inhalte von .txt, .pdf, .doc usw. oder nur deren Dateinamen?)
Wie sieht es mit der benötigten Hardware aus? Was für ein Computer wäre nötig, um die 4-5 Millionen vorhandenen Dokumente zu indexieren und zu durchsuchen?
Wieso ist immer von "peer" die Rede? Zur Benutzung im Unternehmen sollte YaCy nur firmeninterne Dokumente durchsuchen und ausgeben und für niemand anderen zugänglich sein!

Danke für Antworten im Voraus!
Reilly
 
Beiträge: 6
Registriert: Mi Apr 04, 2012 11:01 am

Re: Google oder YaCy

Beitragvon Marek » Mi Apr 04, 2012 3:01 pm

Hallo,

Ich habe einen größere Intranet- und Fileserversuche umgesetzt, solche braucht aber aus verschiedenen Gründen bisher/zur Zeit noch einiges Wissen, Achtsamkeit, Workarrounds und Tools, was sich aber mit der weiteren Entwicklung zum Großteil von selbst erledigen könnte und hoffentlich wird.

Vielleicht schneller, wenn InteressentInnen (gemeinsam jeder ein bisschen) einen vergleichsweise kleinen Teil ihres Budges zur Weiterentwicklung in diese Richtung ausgeben würden. Falls du ernsthaft ein Projekt in diese Richtung angehen willst und auch etwas Budget dafür da ist, frag nochmal an, evtl. lässt sich davon allgemeines Dokumaterial und die ein oder andere Ergänzung oder Weiterentwicklung finanzieren.

Was durchsucht YaCy alles? (auch Inhalte von .txt, .pdf, .doc usw. oder nur deren Dateinamen?)


Ja, auch die Inhalte (allerdings von .txt (noch) nicht, für pdf, doc usw. gibt es (standardmäßig aktivierte) Plugins).

Wie sieht es mit der benötigten Hardware aus? Was für ein Computer wäre nötig, um die 4-5 Millionen vorhandenen Dokumente zu indexieren und zu durchsuchen?


Bei der heutigen Prozessorleistung (bei wenigen MitarbeiterInnen reicht ein stromsparender Atom) wird neben der Dauer des ersten Indizierens (bei 4-5 Millionen Dokumente kann das je nach Prozessor etwa 2 Tage dauern) das Hauptproblem eher RAM sein, bei etwa der Hälfte der von dir genannten Dokumentenzahl benötigt ein System, das ich aufgesetzt habe mindestens 2,5-3 GB RAM. Damit das verwaltbar ist, brauchst du dann ein 64 bit (Betriebs-)System.

Es sei denn es wird sehr häufig und vor allem von vielen gleichzeitig gesucht (wie viele gleichzeitig arbeitende MitarbeiterInnen die wie oft suchen?). Wenn du dauerhaft viele Suchen gleichzeitig hast, könnte das mehr RAM und Prozerrorleistung benötigen, habe da aber noch keine Messwerte.

Wieso ist immer von "peer" die Rede? Zur Benutzung im Unternehmen sollte YaCy nur firmeninterne Dokumente durchsuchen und ausgeben und für niemand anderen zugänglich sein!


Das ist auch so, wenn du bei den Einstiegseinstellungen auf den Modus "Intranet" schaltest.

Gruss,
Marek
Marek
 
Beiträge: 27
Registriert: Mi Jan 25, 2012 1:27 am
Wohnort: Berlin

Re: Google oder YaCy

Beitragvon Reilly » Do Apr 05, 2012 8:03 am

Danke für die Antwort, war schon mal sehr hilfreich!
Die Computerleistung ist kein Problem, denke ich.

Ist es denn möglich, einen ständig laufenden Rechner mit einer YaCy Installation ins Intranet einzubinden und dieses + einige geteilte Ordner auf einem Server nach Inhalten zu durchsuchen und das ähnlich effizient wie bei der google appliance?
Deiner Antwort entnehme ich, dass das nicht ohne Weiteres geht?
Reilly
 
Beiträge: 6
Registriert: Mi Apr 04, 2012 11:01 am

(Noch) zu berücksichtigen bei Einsatz als Suche für Fileserv

Beitragvon Marek » Do Apr 05, 2012 11:18 am

Hallo,

Ist es denn möglich, einen ständig laufenden Rechner mit einer YaCy Installation ins Intranet einzubinden und dieses + einige geteilte Ordner auf einem Server nach Inhalten zu durchsuchen und das ähnlich effizient wie bei der google appliance?


Ja, dafür ist es ja auch da :-)

Vergleiche zur Google-Appliance kann ich mangels letzterer zum Testen nicht machen.

Deiner Antwort entnehme ich, dass das nicht ohne Weiteres geht?


Kommt hauptsächlich drauf an, wie viele Dateien in deinen Shareverzeichnissen sind bzw. falls viele, ob du (ich hoffe: noch) administrativen Zusatzaufwand reinstecken kannst.

An sich geht es sehr gut sowohl auf freiem Debian 64 bit wie Ubuntu 64 bit mit OpenJDK, ich sehe aber bei vielen Daten noch folgende zwei Probleme, die ich noch manuell bzw. Yacy-extern managen muss:

Neue und geänderte Dateien
Es sollen ja auch eventuelle neue oder geänderte Files regelmässig indiziert werden. Im Moment ist das so, dass - wenn nicht jedeR geänderte oder neue Dateien selbst an Yacy mitteilt, indem er/sie genau diese danach crawlen lässt - ein erneutes Scannen eines Verzeichnisses ein Neuindizieren aller Files bedeutet. Das ist bei sehr vielen Dateien schlecht, da sowas ja regelmäßige je nanchdem z.B. 30 h andauernde und zu 99% unnötige Systemlast bedeutet.

Ich helfe mir erstmal damit, dass ich für die interessanten Verzeichnisse regelmässig (cron) ein Skript mit find so aufrufe, dass seit dem letzten Lauf geänderte Dateinamen erhoben werden und füttere diese dann an die API, das dauert dann nur wenige Minuten.

Einen dieses Problem ansprechenden Wunsch hatte schon jemand im Bugtracker eingetragen ( http://bugs.yacy.net/view.php?id=157 ). Wenn das mal von Yacy effizient berücksichtigt wird, kann mensch sich dank für sowas ja schon vorhandenem Yacy-Sheduler für die gewünschten Verzeichnisse externe cronjobs und eigene Skripte fürs Management neuer oder geänderter Files großteils sparen.

Netzwerkprobleme bei virtuellen Netzen/lokalen Netzwerkschnittstellen
Bei dir wohl weniger problematisch (du meintest du möchtest eine eigene Kiste laufen lassen):
- wenn die Daten auf dem selben Rechner liegen, auf dem Yacy läuft (auch wenn in unterschiedlichen VMs oder Yacy in VM o.ae.) und du statt per file:// (das geht problemlos) per Netzwerkprotokoll auf Lokales zugreifst wie SMB oder HTTP kann es noch wegen der virutellen (=super schnellen) Netzverbindung zu Timing Problemen und gelegentlichen Timeouts kommen, so dass einzelne Seiten/Files unindiziert bleiben können (siehe Bugtracker) - über Netzwerkkabel angebundenes sollte keine solchen Probleme machen.

Gruss,
Marek
Marek
 
Beiträge: 27
Registriert: Mi Jan 25, 2012 1:27 am
Wohnort: Berlin

Re: Google oder YaCy

Beitragvon Reilly » Do Apr 12, 2012 9:06 am

Danke für die Antwort!
Läuft YaCy denn auch auf CentOS?
Ich probiere es gerade auf meinem eigenen Rechner aus und muss sagen, dass es da doch noch einige Probleme mit dem Crawler im Filesystem und im Intranet gibt.
Ich trage die URL vom Intranet ein "http://intranet.xxx.int" und der Crawler kommt immer mit Fehlermeldungen.
Was läuft da schief? Die Einstellungen sind auf "Intranet" gestellt.
Reilly
 
Beiträge: 6
Registriert: Mi Apr 04, 2012 11:01 am

Re: Google oder YaCy

Beitragvon Lotus » Do Apr 12, 2012 12:39 pm

Reilly hat geschrieben:Läuft YaCy denn auch auf CentOS?

Überall, wo Java 1.6 läuft.

Ich probiere es gerade auf meinem eigenen Rechner aus und muss sagen, dass es da doch noch einige Probleme mit dem Crawler im Filesystem und im Intranet gibt.
Ich trage die URL vom Intranet ein "http://intranet.xxx.int" und der Crawler kommt immer mit Fehlermeldungen.
Was läuft da schief? Die Einstellungen sind auf "Intranet" gestellt.

Wie lautet eine solche Fehlermeldung?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Google oder YaCy

Beitragvon Reilly » Fr Apr 13, 2012 8:07 am

Eingangskonfiguration steht auf Intranet und ich füge beim Crawler die Adresse ein, mit der ich auch aufs Lokale Intranet zugreife. Dann kommt diese Fehlermeldung:

Crawling von "http://intranet.xxx.int/" schlug fehl. Grund: denied_(the host 'intranet.xxx.int' is global, but global addresses are not accepted: 172.xx.150.xx)

Noch einige Fragen:
Kann YaCy auch Ausschlussregeln? Bei der Google Appliance kann man z.B. angeben, dass
URL's nicht durchsucht werden, wenn sie bestimmte Inhalte haben, wie "php" usw.

. Habe z.B. ein internes Wiki, von dem es auch ältere Versionen gibt, womit Seiten dann ja doppelt gelistet würden.

Außerdem kommt es mir so vor, als würde es sehr lange dauern, zu crawlen? Crawle seit gestern Mittag und habe erst 19.300 Seiten im Index. Ist das normal oder zu langsam?
Zuletzt geändert von Reilly am Do Apr 19, 2012 9:16 am, insgesamt 1-mal geändert.
Reilly
 
Beiträge: 6
Registriert: Mi Apr 04, 2012 11:01 am

Re: Google oder YaCy

Beitragvon Reilly » Di Apr 17, 2012 9:33 am

Sorry für ein erneutes Posting, aber irgendwie scheint das Alte übersehen worden zu sein.
Ich kann mein Intranet nicht crawlen, außer ich benutze die zweite Einstellung "Suchportal für ihre eigenen Internetseiten".
Auf meinen Austauschservern wird aber kaum etwas erkannt (1000 URLs bei YaCy, 30.000 bei der Google Appliance auf dem gleichen Server).
Woran liegt das?
Reilly
 
Beiträge: 6
Registriert: Mi Apr 04, 2012 11:01 am

Re: Google oder YaCy

Beitragvon Lotus » Di Apr 17, 2012 10:57 am

Reilly hat geschrieben:Crawling von "http://intranet.xxx.int/" schlug fehl. Grund: denied_(the host 'intranet.xxx.int' is global, but global addresses are not accepted: 172.xx.150.xx)

Wenn das erste xx nicht zwischen einschließlich 16 und einschließlich 31 liegt, dann ist das korrekt als global erkannt.
http://de.wikipedia.org/wiki/Private_IP ... ssbereiche
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Google oder YaCy

Beitragvon Lotus » Di Apr 17, 2012 10:58 am

Reilly hat geschrieben:Auf meinen Austauschservern wird aber kaum etwas erkannt (1000 URLs bei YaCy, 30.000 bei der Google Appliance auf dem gleichen Server).
Woran liegt das?

Könnte daran liegen, dass eingestellt ist, dass dynamischen Links nicht gefolgt wird. Erkennbar durch ein ? in der Adresse.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Google oder YaCy

Beitragvon Reilly » Mi Apr 18, 2012 8:12 am

Lotus hat geschrieben:
Reilly hat geschrieben:Auf meinen Austauschservern wird aber kaum etwas erkannt (1000 URLs bei YaCy, 30.000 bei der Google Appliance auf dem gleichen Server).
Woran liegt das?

Könnte daran liegen, dass eingestellt ist, dass dynamischen Links nicht gefolgt wird. Erkennbar durch ein ? in der Adresse.


Habe das Häckchen bei "erlaube query-strings (URLs mit einem '?' im Pfad)" bei allen Crawls gesetzt.

Lotus hat geschrieben:Wenn das erste xx nicht zwischen einschließlich 16 und einschließlich 31 liegt, dann ist das korrekt als global erkannt.
http://de.wikipedia.org/wiki/Private_IP ... ssbereiche


das xxx steht nicht für zahlen, sondern für buchstaben. Die Abkürzung meines Firmennamens (angenommen der Firmenname ist KKC) dann ist die intranetadresse intranet.kkc.int.
Bei den Mailservern und den Austauschservern kommt auch diese Fehlermeldung. Wenn ich sie mit Eingangsoption 2 crawle dann gehts, aber wie gesagt nur sehr unzureichend (es fehlen Tausende Dokumente)

Wie sieht es denn mit Auschlussregeln aus? Gibt es sowas bei YaCy? Also dass bestimmte Seiten nicht durchsucht werden, wenn sie ein bestimmtes Muster enthalten?
Reilly
 
Beiträge: 6
Registriert: Mi Apr 04, 2012 11:01 am

Re: Google oder YaCy

Beitragvon Orbiter » Mi Apr 18, 2012 9:37 am

- Ausschlussregeln gibts beim Advanced Crawl Start als 'do not match' regulärer Ausdruck. Das bezieht sich aber auf die URL, nicht den Inhalt der Seite.
- fehlende Seiten: hab eben erst einen Fix für den html-Parser eingecheckt, der nicht alle <a> tags aufgrund von Fehlern im source-html gefunden hat (nun toleranter)
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Google oder YaCy

Beitragvon Lotus » Do Apr 19, 2012 9:36 pm

Reilly hat geschrieben:
Lotus hat geschrieben:Wenn das erste xx nicht zwischen einschließlich 16 und einschließlich 31 liegt, dann ist das korrekt als global erkannt.
http://de.wikipedia.org/wiki/Private_IP ... ssbereiche


das xxx steht nicht für zahlen, sondern für buchstaben. Die Abkürzung meines Firmennamens (angenommen der Firmenname ist KKC) dann ist die intranetadresse intranet.kkc.int.

Achso, den Teil meinte ich gar nicht. Ich meinte folgenden Teil:
but global addresses are not accepted: 172.xx.150.xx
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste