Fragen zu Einsatzmöglichkeit und Hardware

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Fragen zu Einsatzmöglichkeit und Hardware

Beitragvon Adabi » Di Sep 30, 2008 5:55 am

Hallo,

tut mir leid, aber ich habe so viele Fragen, dass sie nicht alle sinnvoll in den Betreff einzufügen sind. Ich bin leider der PC Experte bei uns und wie das in kleinen Betrieben so ist, kann der alles, aber nichts perfekt. OS ist Windows. Chef hasst google.

1. Ist folgendes Modell mit Yacy möglich?
Fa. Müller möchte die Webseiten von Geschäftspartnern indizieren und darauf Zugriff per Intranet und Internet (Aussendienstmitarbeiter) haben. Zusätzlich einige Informationsseiten. Zugriff sollen nur Mitarbeiter haben, da Müller nicht die Arbeit für die Konkurrenz Meier mitmachen möchte.
Soweit wie ich das bis jetzt sehe müsste dann Yacy nur noch auf die eigene Webseite eingetragen werden und die entsprechenden Benutzerkonten angelegt werden. Ist das richtig? Oder ggf. in einen geschützen Bereich des Webservers abgelegt werden.

2. Ich habe hier einiges verwirrendes zum Thema Ressourcenverbrauch gelesen und kann nicht einschätzen wie ich das Thema Hardware bewerten soll. Was kann man denn z.B. bei 2GB RAM und 1TB Festplatte erwarten? Werden bei der Indizierung MehrkernCPUs unterstützt? Ich glaube nicht, dass das Problem die CPUlast ist, oder?
Ist eine Zeitsteuerung möglich? Also z.B. Yacy von 0h bis 6h indizieren zu lassen.

3. Können bei der unter 1. genannten Vorstellung zwei Server zusammenarbeiten? Einer als Chef und der andere spielt zusätzliche Daten zu ohne selbst zu viel Ressourcen zu brauchen.

4. Bis jetzt habe ich 2 Möglichkeiten entdeckt den Index "sauber" zu halten. a. mit Filterlisten und b. durch direkten Eingriff bei den Suchergebnissen. Wie ich das bis jetzt gesehen habe erscheint es mir sinnvoll sofort ein Blacklist (Ebay, Preissuchmaschinen, Social Networks etc.) zu erstellen um hinterher das Aufräumen zu vereinfachen.

5. Legt Yacy alles unter Pfad:Yacy ab? (Konsolenfreunde können die Frage ignorieren. Ist eine Winmacke ;-) )

6. Gibt es Gründe die gegen Yacy in einer virtuellen Umgebung sprechen?

7. Wie ich gesehen habe kann Yacy hinter einen anderen Proxyserver betrieben werden (Remote Proxy). Hat jemand damit Erfahrungen? Das würde doch bedeuten, dass Yacy den kompletten Proxy-Cache umkrempelt wenn es läuft, oder? Hätte das ansonsten irgendwelche Vorteile?

8. Yacy läuft gerade Testweise im Robinson-Modus. Unter Admin Konsole -> Status steht "Sie lassen YaCy bei sich im Senior Modus laufen und unterstützen den globalen Index, den Sie auch selbst durchsuchen können." Wie passt das zusammen?

Vielen Dank für eure Antworten.
Adabi
 
Beiträge: 3
Registriert: Di Sep 30, 2008 3:58 am

Re: Fragen zu Einsatzmöglichkeit und Hardware

Beitragvon Orbiter » Di Sep 30, 2008 8:56 am

Hallo Adabi!

also..

1) ja. Du kannst auf der Seite zum Sucheinstieg (index.html) auf Erweiterte Optionen klicken, dann ist unten ein Knopf um die Suche nur für autorisierte User zuzulassen. Das ist mit dem Admin-Account verknüpft, so weit ich weiss.

2) 2GB RAM 1TB Platte sollte gut ausreichen. Mehrkern wird unterstützt, DB-Funktionen skalieren momentan bis quadcore, der Indexierer skaliert unbegrenzt mit mehr Prozessoren. Problem ist eher IO als CPU. Mehr RAM ist gut. Zeitgesteuertes Indexieren kannst du zur Zeit nur durch 'Umbauen' erreichen (cronjob mit wget auf Webseiten die ein Crawl-Pause/Start machen. So ein Knopf ist auf der Status-Seite beispielsweise und auf dem Crawl Monitor).

3) ja. Dafür empfehle ich ein eigenes Netz aufzubauen. Wie das geht steht in der IX, die im Artikel in der aktuellen c't 21 referenziert wird. Ist nicht schwer: Netzkonfiguration auf eine Webseite schreiben, die URL dazu in YaCy in die settings einpflegen.

4) ja, du kannst aber auch blacklisten aus dem Netz importieren, die Blacklist-Funktionsseite hat dazu eine Option. Da must du ein wenig rumprobieren (an alle: wer eine schöne Blacklist hat, bitte hier Peer-Namen posten!)

5) ja, nur unter yacy/DATA. Wenn du ein Backup machst, ist in DATA alles drin.

6) nun ja, wenn sich die VM IO mit vielen anderen VMs teilt ist das nicht so gut. Und sollte genügend RAM da sein, dann sollte das kein Problem sein.

7) aus manchen Firmennetzen kommt man nur per proxy raus, da braucht man so eine Funktion in YaCy um remote proxies anzusprechen. Sonst sehe ich keinen Vorteil.

8) ein bug. Sollte in 0.604 gefixt sein, hoffe ich. Bekommst du über auto-updater. Wenn damit die gleiche Ausgabe kommt, bitte hier wieder schreiben.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Fragen zu Einsatzmöglichkeit und Hardware

Beitragvon Huppi » Di Sep 30, 2008 4:32 pm

Chef hasst google.


Das ist schon einmal ein guter Anfang :-)

(an alle: wer eine schöne Blacklist hat, bitte hier Peer-Namen posten!)


Ich habe mir aus diversen Quellen mal einiges zusammengesucht, liegt aber noch nicht alles im YaCy-Format vor. Steht momentan bei mir ganz unten auf der to do Liste, Rohmaterial gebe ich natürlich gerne auch weiter. Ist vielleicht einen separaten Thread in Mitmachen wert?

Adabi: schönes Anwendungsszenario, daß Du da vorstellst! Es würde mich sehr freuen, wenn Du das erfolgreich implementierst!
Sag Bescheid, wenn Du weitere Unterstützung gebrauchen kannst.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Fragen zu Einsatzmöglichkeit und Hardware

Beitragvon Huppi » Fr Okt 03, 2008 1:20 am

Eine brauchbare Blacklist sollte auf fss_i_yacy5 zu finden sein. Ist meines Wissens ursprünglich von Marc importiert.

Was sprach noch mal dagegen, schon eine Standard-Blacklist mit in's Installationspaket zu laden?
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Fragen zu Einsatzmöglichkeit und Hardware

Beitragvon Huppi » Fr Okt 03, 2008 1:37 am

Ich habe jetzt noch mal mit dem Blacklist-Cleaner herumgespielt und das gesäuberte Ergebnis auf den Webserver hochgeladen:
http://latest.findenstattsuchen.info/blacklist/
Dort ist ausschließlich die von mir persönlich verwendete Blacklist zu finden, ich übernehme keinerlei Haftung für anything.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Fragen zu Einsatzmöglichkeit und Hardware

Beitragvon Low012 » Fr Okt 03, 2008 11:33 am

Huppi hat geschrieben:Ist meines Wissens ursprünglich von Marc importiert.


Ich hatte mal zwei ziemlich umfangreiche Listen, eine zum Ausblenden von Shoppping- und Preisvergleichsseiten aus den Suchergebnissen und eine zum Ausblenden von Werbung beim Surfen über den Proxy. Aus eigener Blödheit habe ich die aber mal versehentlich gelöscht.

Bald habe ich Urlaub und wenn ich es schaffe, möchte ich dann die Blacklist-Verwaltung etwas aufbohren. Danach werde ich vielleicht auch wieder ein paar umfangreichere Listen anlegen.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste