YaCy als Proxy?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

YaCy als Proxy?

Beitragvon TmoWizard » Mi Okt 01, 2014 7:30 pm

Hallöchen zusammen!

Bis jetzt bin ich mit YaCy zufrieden, aber es kommen doch immer wieder Fragen auf. Das Meiste kann ich so nebenbei lösen, auch mit Hilfe des Forums hier und den vorhandenen Beiträgen. Nun stellt sich mir aber folgende Frage:

Was soll der Eintrag in der Wiki wegen dem Proxy? Zitat:

YaCy-Wiki hat geschrieben:YaCy ist auch ein http proxy. Sie müssen diese Funktion nicht nutzen, tatsächlich ist die Vorgehensweise, YaCy als Proxy nutzen zu können um Daten indexieren zu können veraltet.


Soll man stattdessen ausschließlich den Crawler benutzen, oder was? Ehrlich gesagt kenne ich kaum jemanden, der hierfür ein entsprechend leistungsfähiges Gerät zuhause hat! YaCy braucht so schon einiges an Power und RAM, ständig einen Crawler zu benutzen ist für die meisten Anwender undenkbar. Ich verwende hier einen Athlon II X2 220 mit 6GB RAM, der ist in meinem Umfeld schon als größenwahnsinnig zu betiteln!

Einen besseren Rechner brauchen eigentlich nur Leute, die entsprechend zocken oder viel mit Graphik arbeiten. Für alle anderen ist das überdimensioniert, zum Briefe schreiben, im Internet surfen und seine Mails abrufen braucht man sowas einfach nicht, Schon gar nicht, wenn wie bei mir auch noch die Grafikkarte 2GB hat.

Wenn ich aber mit diesem System einen Crawler starte, dann brauche ich eigentlich fast nichts anderes mehr an der Kiste machen. Das Ding geht dann dermaßen in die Knie, daß ein vernünftiges Arbeiten nicht mehr möglich ist!

Leider finde ich auch nirgends eine Anleitung, wie man den Crawler von YaCy entsprechend vernünftig einrichtet. Die Wiki ist ein schlechter Scherz, ernst nehmen kann ich sie in dem Zustand nicht! Für Anfänger, die darin Hilfe erwarten ist sie jedenfalls nicht geeignet. Ich arbeite jetzt seit über 30 Jahren mit Computern, Soft- und Hardwaremäßig, aber mit dem zum Teil unzusammenhängendem Kauderwelsch komme ja nicht einmal ich klar!

Wenn ich genügend Zeit dafür hätte, dann würde ich es machen wie schon bei SeaMonkey:

Ich würde auf meinem Blog entsprechende Tutorials veröffentlichen, die auch einem totalen Anfänger Hilfe bieten!

Das würde derzeit aber bei weitem meine Kompetenz überschreiten, so daß sich darum mal jemand anderer kümmern sollte!

Also hier noch mal deutlich:

Proxy oder nicht?

Ich stimme für den Proxy, schließlich will ich mit meinem Rechner ja arbeiten können!
TmoWizard
 
Beiträge: 145
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: YaCy als Proxy?

Beitragvon Orbiter » Mi Okt 01, 2014 9:40 pm

hm, also hier..
TmoWizard hat geschrieben:Soll man stattdessen ausschließlich den Crawler benutzen, oder was? .... ständig einen Crawler zu benutzen ist für die meisten Anwender undenkbar.

ist irgendwo ein Missverständnis. Da ist irgendwie eine Erwartungshaltung des Users an ein 'richtige Benutzung' die man richtig stellen sollte. Also der Satz im Wiki stammt von mir und mir geht es hierbei darum:

- eine Suchmaschine muss Inhalte haben, die müssen irgendwo her kommen
- die erste Idee, die Inhalte zu besorgen, war der Proxy
- die zweite Idee, die viel effizienter und praktikabler war, ist der Crawler.

Für einen User, der erst mal 'nur' suchen will, stellt sich aber die Frage erst gar nicht. Mein Ansatz wäre, dass ein User sich auch erst mal nicht darum kümmern muss, das machen erst mal andere. Du bis so ein Such-User, du musst dich nicht erst um die Beschaffung der Indexe kümmern.

Wenn du dann gestalten willst, hast du wieder die Wahl, und m.E. nach ist die bessere Wahl der Crawler, weil du hier ganz geziehlt Inhalte für alle bereitstellen kannst. Musst du aber nicht. Um also wieder auf die Anfangsfrage zurückzukommen:
TmoWizard hat geschrieben:Soll man stattdessen ausschließlich den Crawler benutzen, oder was? .... ständig einen Crawler zu benutzen ist für die meisten Anwender undenkbar.

nein, gar nichts, ausser du willst den Index gestalten. Dann hast du die Wahl. Hier bitte ich um deine Mithilfe: wie kann die Beschreibung für Erstuser besser geschrieben werden, damit das verständlicher wird? Bitte kurz und knapp.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: YaCy als Proxy?

Beitragvon TmoWizard » Sa Okt 04, 2014 9:35 pm

Hallöchen Orbiter,

erst einmal danke für deine ausführliche Antwort!

Orbiter hat geschrieben:der Satz im Wiki stammt von mir und mir geht es hierbei darum:

- eine Suchmaschine muss Inhalte haben, die müssen irgendwo her kommen
- die erste Idee, die Inhalte zu besorgen, war der Proxy
- die zweite Idee, die viel effizienter und praktikabler war, ist der Crawler.

Für einen User, der erst mal 'nur' suchen will, stellt sich aber die Frage erst gar nicht. Mein Ansatz wäre, dass ein User sich auch erst mal nicht darum kümmern muss, das machen erst mal andere. Du bis so ein Such-User, du musst dich nicht erst um die Beschaffung der Indexe kümmern.


Ok, daß ist dann auch für mich soweit verständlich!

Orbiter hat geschrieben:Wenn du dann gestalten willst, hast du wieder die Wahl, und m.E. nach ist die bessere Wahl der Crawler, weil du hier ganz geziehlt Inhalte für alle bereitstellen kannst. Musst du aber nicht.


Schon klar. Aber wie erwähnt dürfte das bei einem "normalen" PC ziemlich eng mit dessen Leistung werden. Eine einfache Webseite kann immerhin mehrere Stunden brauchen, bis der Crawler fertig ist. Vor allem dann, wenn dort auch noch wie z. B. auf meinem Blog oder so viele Links zu anderen Sites sind. Bei der voreingestellten Suchtiefe von 3 war ich jedenfalls nicht besonders begeistert, noch schlimmer wurde es beim Blog von Thomas Stadler!

Wenn das bei jedem Crawler so lange dauert, dann ist das mal nicht besonders gut! Die meisten Leute werden anders wie Abends oder Nachts wohl ihren Rechner herunterfahren oder zumindest in den Standby, der Crawler wird bei denen also ewig beschäftigt sein. Wenn sie also wieder weiter arbeiten, dann läuft natürlich auch der Crawler weiter und bremst entsprechend das System aus! :(

Orbiter hat geschrieben:Um also wieder auf die Anfangsfrage zurückzukommen:
TmoWizard hat geschrieben:Soll man stattdessen ausschließlich den Crawler benutzen, oder was? .... ständig einen Crawler zu benutzen ist für die meisten Anwender undenkbar.

nein, gar nichts, ausser du willst den Index gestalten. Dann hast du die Wahl. Hier bitte ich um deine Mithilfe: wie kann die Beschreibung für Erstuser besser geschrieben werden, damit das verständlicher wird? Bitte kurz und knapp.


Ähm... das kann ich jetzt echt nicht beantworten, da ich mich mit der Materie noch nicht wirklich auskenne! Aber ich habe da gleich ein weiteres Problem wegen dem Proxy:

Ich verwende hierfür ja wie in meinem entsprechenden Tutorial erwähnt kein Add-on, ich mach das direkt in den Einstellungen des jeweiligen Browsers. Wie im Tutorial zu sehen gibt es da eine Möglichkeit, daß man bestimmte Seiten ausläßt. Hier nun meine Frage dazu:

Ist das normal, daß die entsprechende Liste wächst und wächst? Es gibt da anscheinend sehr viele Websites, die ganz offensichtlich nicht mit einem Proxy klar kommen! :( Woran liegt das eigentlich?

Natürlich ist das mit YaCy kein anonymer Proxy, um das geht es mir auch gar nicht generell. Die meisten dieser Proxys taugen eh nichts, da die wirklich guten in China, Rußland oder den USA stehen. Ich hätte da also die Wahl zwischen der großen Firewall, staatlicher Zensur oder den NSA, das sieht mir irgendwie nicht berauschend aus.

Wie ist das nun mit dem Proxy, warum funktionieren da viele Seiten nicht wie gewünscht? Ich konnte darüber irgendwie keine Informationen finden, die mich nicht noch mehr verwirren!

Abendliche Grüße nun aus TmoWizard's Castle zu Augsburg

Mike, TmoWizard Bild
TmoWizard
 
Beiträge: 145
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: YaCy als Proxy?

Beitragvon Erik_S » So Okt 05, 2014 10:24 am

Hallo,

TmoWizard hat geschrieben:Wie ist das nun mit dem Proxy, warum funktionieren da viele Seiten nicht wie gewünscht?
Einer der Gründe ist das viele Seiten nicht wollen das ihre Besucher dem Web-Server gegenüber anonym sind. Die meisten Proxys (vermutlich auch YaCy) geben sich in der ein oder anderen Form dem Web-Server gegenüber als Proxy zu erkennen und es gibt Black-Lists mit den IPs von Proxys die einige Seiten zum gezielten aussperren von Proxys verwenden. Auch die Browser-Umgebungen sind nicht perfekt so das es Tricks gibt mit denen ein Web-Server erkennen kann ob ein Proxy benutzt wird, gerade das Flash-PlugIn (das in der Lage ist am Browser vorbei Verbindungen ins Internet aufzubauen) ist für solche Tricks anfällig. Aber es gibt wohl auch Probleme mit manchen Java-Script-Features u.ä. die sich bei Verwendung eines Proxys (minimal) anders verhalten als ohne Proxy so das selbst Web-Seiten die eigentlich nichts gegen Proxys haben manchmal trotzdem nicht korrekt funktionieren.

@Orbiter:
Die Funktionsweise des Proxys in YaCy ist meiner Meinung nach wirklich noch eher wenig dokumentiert.
Bei YaCy laufen ja alle Anfragen über den selben Port so das dort ein Entscheidungsmechanismus vorhanden sein muss der entscheidet ob ein Zugriff den YaCy-Peer selber betrifft oder per Proxy weitergeleitet werden soll.
Wie arbeitet das genau?
Gerade auch im Hinblick auf den HTTP-Fehler 403 wäre es sehr interessant das mal genau zu wissen. Mein Analyse-Tool bekommt ebenfalls hin und wieder den Fehler 403 zu sehen und das obwohl mein Analyse-Tool immer den richtigen .yacyh-Namen im Host-Header mitsendet.
Darüber hinaus wäre es gut zu wissen wie der Proxy entscheidet ob die durchgeleitete Web-Seite indexiert werden soll.

Grüße
Erik
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am

Re: YaCy als Proxy?

Beitragvon Orbiter » So Okt 05, 2014 2:47 pm

hört sich sicherlich blöd an, aber ich würde den Proxy eher entfernen als supporten. Ich habe das beim letzten Linuxtag mal angesprochen und hatte überaschend festgestellt das noch mehr Leute immer noch den Proxy benutzen. YaCy hat zwar als Proxy angefangen (ja das sollte einfach nur ein Proxy werden) aber ich habe das sehr schnell aufgegeben. Der Proxy wurde nur noch von Leuten gewartet die ihn benutzen wollten, wenn von dort nun kein Support mehr kommt könnte es sein dass ich eher wieder auf Entfernen plädiere. Weil ich mich schon länger nicht mehr mit dem Proxy beschäftigt habe und das auch nicht will kann ich dazu entsprechend keine Supportauskunft geben.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: YaCy als Proxy?

Beitragvon sixcooler » So Okt 05, 2014 11:26 pm

Hallo,

ich bin bekennender 'YaCy-als Proxy-User' und will dieses Feature nicht missen!
Ja es gibt hier und da ein paar Sites die nicht mit YaCy als Proxy funktionieren - ich nehme mir auch immer wieder vor mich damit mal zu beschäftigen...
Aber in meinem Altag läuft YaCy als Proxy wunderbar. Leider gibt es tatsächlich immer weniger Sites die sich aus der Proxy-Nutzung auch zum crawlen eignen, wenn man nicht sehr darauf bedacht ist auf Cookies zu verzichten etc.
Besonders gut finde ich die Möglichkeit Filter auf den Proxy anwenden zu können.

Cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: YaCy als Proxy?

Beitragvon flegno » Mo Okt 06, 2014 10:51 am

Hallo,
sixcooler hat geschrieben:ich bin bekennender 'YaCy-als Proxy-User' und will dieses Feature nicht missen!
Ich auch. Und ich werbe für YaCy explizit mit dem 'YaCy-als Proxy'-Feature, gerade weil ich diese Erfahrung
TmoWizard hat geschrieben:Eine einfache Webseite kann immerhin mehrere Stunden brauchen, bis der Crawler fertig ist.
gemacht habe und mir bewusst ist, dass es wesentlich weniger User gibt, die bereit sind, tagelang den PC laufen zu lassen, um ein Paar Websites in ein YaCy-Index zu bekommen, als User, die dank dem YaCy-als Proxy'-Feature einfach nebenbei eine Art erweiterte Lesezeichen-Sammlung ( meine Sicht auf den YaCy-Index) generieren und diese Sammlung dann dem Peer-to-Peer-Netzwerk zur Verfügung stellen. Ich wende mich an die 'YaCy-als Proxy-User' sich hier zu melden, ob sie grundsätzlich bereit wären, für den 'YaCy-als Proxy'-Feature-Support ein Paar Euros abzudrücken, falls hier Support-mäßig ein Handlungsbedarf besteht.

Gruss, Gustav
flegno
 
Beiträge: 232
Registriert: So Aug 17, 2014 4:23 pm

Re: YaCy als Proxy?

Beitragvon Erik_S » Mo Okt 06, 2014 11:46 am

Hallo,

ich persönlich möchte mich dafür aussprechen das Proxy-Feature aus YaCy zu entfernen, aus folgenden Gründen:
Dieses Feature macht den HTTP-Server in YaCy komplexer da dieser für jeden Zugriff entscheiden muss ob der Zugriff den YaCy-Peer selber betrifft oder per Proxy weitergeleitet werden soll. Ein einfaches und simples Design fördert auch immer die Sicherheit und die Fehlerarmut des Systems und ist somit ein Vorteil für die User. Das selbe trifft auch auf den Crawler ansich zu der dann nur noch Seiten analysieren muss die er selber unter kontrollierten Bedingungen geholt hat und keine "vorbeifliegenden" Daten mehr Crawlen muss.
Das "nebenbei-crawlen" geht auch anders, es gibt ein Browser-AddOn das alle aufgerufenen URLs parallel an einen (beliebigen) konfigurierten YaCy-Peer weiterreicht und damit den dortigen Crawler quasi mit einzelnen URLs füttert. Für das "nebenbei-crawlen" muss eh eine Modifikation am Browser vorgenommen werden, ob nun einen Proxy zu konfigurieren oder ein AddOn zu installieren ist kein großer Unterschied. Dafür kann das AddOn eventuell besser auf die Privatsphäre des Users achten, es könnte z.B. im "Privat-Modus" (den heutzutage alle Browser unterstützen) inaktiv bleiben.
Per HTTPS verschlüsselte Seiten sind per Proxy gar nicht crawlbar aber wenn YaCy einfach nur die URL gegeben wird kann der Crawler selber eine verschlüsselte Verbindung zum Web-Server aufbauen. In HTTP 2 soll Verschlüsselung zur Pflicht werden, Chromium wird per HTTP 2 wohl gar keine unverschlüsselten Verbindungen mehr aufbauen können und in Firefox ist das nur versteckt erreichbar. Der Nutzwert eines Proxy-Crawlers könnte also demnächst gen Null sinken.

Das einzigste Feature das wirklich aus YaCy verschwinden würde wäre der einfache Zugriff auf die beiden Top-Level-Domains .yacy und .yacyh aber dafür habe ich eine Lösung die sich kurz vor den Startlöchern befindet.

TmoWizard hat geschrieben:Eine einfache Webseite kann immerhin mehrere Stunden brauchen, bis der Crawler fertig ist.
Oder auch mal Tage, für wireshark.org hat mein Peer mehrere Tage gebraucht und das trotz dickem PC und schneller Internetanbindung. Wobei ich da eher der Meinung bin das die Limitierung auf 2 Zugriffe pro Sekunde das Problem darstellt aber hier gilt es natürlich abzuwägen wie viel Leistung der eigene PC als Crawler erübrigen kann und ob die gecrawlte Web-Seite durch zu intensives crawlen eventuell geDOSt wird. Ich würde mir hier lieber eine Limitierung in Bytes pro Sekunde wünschen damit meine Internetanbindung nicht überlastet wird selbst wenn der PC auf dem YaCy läuft über ausreichend CPU-Power verfügt. Da es keinen Weg gibt einer TCP-Verbindung eine Priorität mitzugeben, die z.B. der Heim-Router beachten könnte damit andere PCs im heimischen Netz nicht ausgebremst werden, ist ein festes Bandbreiten-Limit die einzigst machbare Lösung.

Gerade wegen dem langsamen Crawlen durch nur einen Crawler gibt es ja das Feature die Crawl-Last auf mehrere Peers zu verteilen aber kaum einer hat in seinem Peer das Akzeptieren von Remote-Crawls aktiviert also bleibt dieser Vorteil einer verteilten Suchmaschine leider ziemlich ungenutzt. Auf der anderen Seite kann ich natürlich verstehen warum die Leute (und auch ich) keine Remote-Crawls akzeptieren wollen, wer weiß schon was für URLs da so alles kommen und auf was für Servern man damit die eigene IP-Adresse im Logfile hinterlässt (vom User-Agent mal abgesehen). Das Risiko früh um 6 Uhr eine unangemeldete Hausdurchsuchung mit Beschlagnahmung aller Computer (seine Computer sieht man mit hoher Wahrscheinlichkeit nie oder erst nach vielen Jahren wieder selbst wenn man nachweislich unschuldig ist) usw. zu bekommen will ganz sicher niemand freiwillig eingehen. Da solche Dinge in Deutschland leider schon öfters vorgekommen sind ist das kein rein fiktives Risiko sondern eine ernstzunehmende Gefahr. Hier leidet also eine technische Lösung unter einem politischen Problem.

flegno hat geschrieben:einfach nebenbei eine Art erweiterte Lesezeichen-Sammlung (meine Sicht auf den YaCy-Index) generieren
Ich sehe das genauso, gerade das "nebenbei-crawlen" zeigt doch der Suchmaschine meines Vertrauens wofür ich mich wirklich interessiere und baut somit einen (für mich) maximal nützlichen Index auf.

Ich bin dafür dass das Proxy-Feature aus YaCy verschwindet, damit wären auch die HTTP-403-Fehler vorbei, und dafür die Möglichkeiten zum "nebenbei-crawlen" per Browser-AddOn zu verbessern. Für letzteres würde ich eventuell Geld ausgeben.

Grüße
Erik
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am

Re: YaCy als Proxy?

Beitragvon TmoWizard » Mo Okt 06, 2014 1:21 pm

Hallöchen zusammen!

Also ich bin eindeutig dafür, daß der Proxy bleibt!

Nicht nur aus Gründen der Geschwindigkeit, es betrifft auch den Suchindex. Ich habe z. B. natürlich einen Crawler auf meinen Blog angesetzt, was schon sehr lange gedauert hat dank vieler Links.

Nun habe ich aber seit dieser Zeit weitere Artikel geschrieben und diese sind natürlich nicht im Index vorhanden, ich müßte also wieder einen Crawler losschicken! :shock: Da ist es wesentlich einfacher mit dem Proxy:

Ich suche mit YaCy nach dem Blog, gehe auf das nächstbeste Ergebnis und von dort eben auf den neuen Artikel und schon wird er indexiert. Das hat auch den Vorteil, daß dabei wesentlich weniger Rechenleistung notwendig ist. Mein Rechner ist nun mal nichts besonderes und es laufen ja auch noch andere Prozesse dort, der Crawler kann für mich also nur eine Notlösung sein.

Ich muß hier nun ehrlich sagen, daß wenn der Proxy aus YaCy verschwindet, dann verschwindet YaCy auch von meinem Rechner. Es kann nicht angehen, daß man ein gut funktionierendes System aus purem Eigennutzen, Faulheit oder was für einem Grund auch immer nicht mehr weiter entwickelt. Dadurch wird der Hauptsinn von YaCy zerstört, so daß man es eigentlich nicht mehr weiter empfehlen und das Projekt gleich in den Müll werfen kann!

YaCy ist im derzeitigen Zustand auch für den normalen Anwender geeignet, der sich warum auch immer nicht weiter mit der Materie befassen will oder kann. Die Lösung mit dem Proxy ist eben am einfachsten zu realisieren, da es dafür auch genügend Tutorials im Netz gibt. Die anderen Einstellungen sind einfach zu unübersichtlich und zum Teil kompliziert, so daß ein normaler Anwender damit nichts anfangen kann. Nicht jeder ist so gut mit dem PC vertraut wie ich, aber selbst ich habe bei YaCy meine Schwierigkeiten!
TmoWizard
 
Beiträge: 145
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: YaCy als Proxy?

Beitragvon Erik_S » Mo Okt 06, 2014 3:21 pm

Hallo,

TmoWizard hat geschrieben:Also ich bin eindeutig dafür, daß der Proxy bleibt!
Und wenn der Proxy aufgrund der technischen Weiterentwicklung im Internet, HTTP 2 wird in den nächsten Jahren ganz sicher stark kommen und Verschlüsselung ist allgemein am Zunehmen, keinen Nutzwert mehr bringt?
Gibt es an der Alternative mit dem AddOn irgendein Problem?
Den Crawler "nebenbei" mit einzelnen URLs zu füttern anstatt regelmäßig ganze Web-Server durchsuchen zu lassen ist unbestreitbar eine gute Lösung und soll auch gar nicht aus YaCy verschwinden, die Frage ist doch nur mit welcher konkreten technischen Umsetzung dieses "nebenbei-crawlen" gelöst wird. Aus rein technischen Gesichtspunkten (Verschlüsselung und möglichst einfache Architektur des Programm-Codes und keine 403-Fehler mehr) bin ich für die Variante mit dem Browser-AddOn und gegen den Proxy in YaCy. Wenn jemand Argumente in die andere Richtung hat würde ich die gerne hier lesen.

TmoWizard hat geschrieben:Ich suche mit YaCy nach dem Blog, gehe auf das nächstbeste Ergebnis und von dort eben auf den neuen Artikel und schon wird er indexiert.
Das will Dir doch keiner wegnehmen, es wird nur die Methode mit der das bewerkstelligt wird der technischen Weiterentwicklung angepasst. Die neue Methode ist doch schon längst vorhanden und da kann ich den Programmierer gut verstehen wenn er überlegt (es geht doch bis jetzt nur um Überlegungen) die alte Methode zu entfernen, zwei unterschiedliche Methoden für das selbe Ergebnis zu warten/pflegen ist nicht schön.

TmoWizard hat geschrieben:aus purem Eigennutzen, Faulheit oder was für einem Grund auch immer
Also das war unangebracht. Mag sein das einfacher Code auch der Faulheit des Programmierers dient aber primär dient einfacher Code dem Funktionieren des Programms. Desto weniger Komplex ein System ist desto leichter lässt es sich beherrschen und davon haben doch auch gerade die Anwender etwas.

TmoWizard hat geschrieben:Die anderen Einstellungen sind einfach zu unübersichtlich und zum Teil kompliziert
Gibt es da ein konkretes Problem an dem die Programmierer eventuell nachbessern sollten?
Wenn es wirklich nur an Tutorials und Anschauungsvideos fehlt dann lässt sich das sicher beheben.

Grüße
Erik
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am

Re: YaCy als Proxy?

Beitragvon TmoWizard » Do Okt 16, 2014 7:12 pm

Nur noch einmal so zum Crawler:

Hat einer von euch überhaupt einmal bei seinem YaCy hier nachgesehen:

Active Principal and Senior Peers in 'freeworld' Network

Passive Senior Peers in 'freeworld' Network

Junior Peers (a fragment) in 'freeworld' Network

Es gibt dort außer mir (P-C-I) kaum jemanden, bei denen der Crawler überhaupt erlaubt oder aktiv ist! Obwohl ich mit diesem Rechner nebenbei auch arbeite habe ich YaCy so eingestellt, damit auch andere etwas davon haben.

YaCy hat geschrieben:YaCy ist eine Suchmaschine bei dem die Nutzer selbst zum Betreiber werden. Die freie Suchmaschinensoftware YaCy läuft nicht auf einem Server im Internet, sondern auf Ihrem eigenen Rechner. So können Sie Ihr persönliches Suchportal errichten, bei dem nur Sie bestimmen was die Suchmaschine im Suchindex hat.


Mit einem Crawler kann man das vergessen, das benötigt einfach zu viel Rechenpower! Es kann sich einfach nicht jeder einen Server leisten, egal ob zu Hause oder gemietet.

Sinn und Zweck einer Suchmaschine ist ja wohl, daß sie so viele Suchtreffer wie möglich ergibt. YaCy ist aber dezentral, so daß die Suchergebnisse entsprechend auf mehrere Suchmaschinen aufgeteilt sind. Diese Ergebnisse werden aber nur dann besser, wenn so viele Leute wie möglich mitmachen! Mit dem Crawler wird das aber bestimmt nichts, der kann höchsten als abschreckendes Beispiel dienen.

PS.: Die Zahl der Dokumente in meinem Index geht auch trotz Proxy langsam in Richtung 11.000.000, der Crawler wird dazu nicht benötigt!
TmoWizard
 
Beiträge: 145
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: YaCy als Proxy?

Beitragvon tinkerphone » Do Okt 16, 2014 9:14 pm

Hi Tmo,

dein computer braucht nicht mehr power wenn du nur seiten indexen wills die du besuchts. Seite in index= indizieren - egal ob proxy oder crawler! Beides braucht gleich viel power.

Der proxy hilft nur, dass du nicht extra sagen musst "crawl diese seite".

Warum braucht crawlen aber so viel mehr "power"? Einfach weil der crawler viel viel schneller sites besucht als du surfen kannst.

Stell mal deinen crawler auf 1 page /minute und crawl. Da kannst du nebenbei videos schneiden, CAD nutzen oder spielen - kein problem. Der proxy macht es nur einfacher = kein add-on für den browser. Wirklich schneller ist da nichts.
tinkerphone
 
Beiträge: 26
Registriert: Fr Okt 10, 2014 10:38 am

Re: YaCy als Proxy?

Beitragvon flegno » Fr Okt 17, 2014 8:51 am

tinkerphone hat geschrieben:Der proxy hilft nur, dass du nicht extra sagen musst "crawl diese seite".

G'rade das ist für mich persönlich entscheidend. Ich bin im www unterwegs, erledige meine tägliche Arbeit und kann mich darauf verlassen, dass ich mit einer YaCy-Abfrage, die passende Filter-Einstellungen hat, auch nach einer Woche, einem Monat, einem Jahr, ... zeitsparend bereits besuchte Seiten wieder finden kann.
tinkerphone hat geschrieben:Stell mal deinen crawler auf 1 page /minute und crawl. Da kannst du nebenbei videos schneiden, CAD nutzen oder spielen - kein problem. Der proxy macht es nur einfacher = kein add-on für den browser. Wirklich schneller ist da nichts.
Klingt überzeugend. Da ich selbst in YaCy-Menüs/-Einstellungen nicht so fit bin und komme demnächst nicht dazu mich hier einzuarbeiten, ist meine Frage an tinkerphone und alle in der Runde - ist diese Aussage "Stell mal deinen crawler auf 1 page /minute und crawl. Da kannst du nebenbei videos schneiden, CAD nutzen oder spielen - kein problem" in der Praxis geprüft oder nur eine Vermutung?

Erik_S hat geschrieben:Auf der anderen Seite kann ich natürlich verstehen warum die Leute (und auch ich) keine Remote-Crawls akzeptieren wollen, wer weiß schon was für URLs da so alles kommen und auf was für Servern man damit die eigene IP-Adresse im Logfile hinterlässt (vom User-Agent mal abgesehen).
Ich muss zugeben, ich blicke hier nicht durch, ob und wie eng das wichtige Thema "Crawl-Missbrauch" mit dem "YaCy als Proxy?"-Thema verknüpft ist. Falls die Verzahnung dieser Themen kein Zwang ist, bin ich dafür, diese Themen getrennt, in separaten Threads zu diskutieren.

Ob nun die "nebenbei-crawlen"-Funktionalität mit einem Proxy oder mit einem Addon bereitgestellt wird, wäre ich als Anwender neutral. Meine persönliche Erfahrung, Wahrnehmung mit/der Addon-Implementierung aber ist, dass diese wahrscheinlich wartungsintensiver ist bzw. sein wird. Allein deswegen, weil:
  1. eine Implementierung für viele Browser notwendig ist
  2. auch bei einem Firefox-Browser sind häufige regelmäßige Updates fällig, da der Browser selbst häufig geupdatet wird
Tatsache ist, dass Orbiter letzte Wochen nach einer Support-Leistung angefragt hat, um irgendein Addon zu updaten - ich weiss nicht mehr welches. Meine Sorge ist, dass das "nebenbei-crawlen"-Addon zu (noch) einem pflegebedürftigen Sorgenkind wird. Java-Updates sind vermutlich weniger häufig im Vergleich zu Firefox-Updates und verursachen weniger Inkompatibilitäten.

Als ich zum Firefox-Browser gewechselt habe, habe ich eine Menge hilfreicher Addons verwendet. Ziemlich schnell sind davon nur ein Paar geblieben. Wobei auch auf diese ein Paar Addons ich ggf. verzichten kann. Weil ich's mir schlicht und einfach nicht leisten kann, nach jedem Firefox-Update
  1. entweder meine Arbeitsweise im wwww immer wieder anzupassen - mit/ohne Addons
  2. oder mein persönliches Addon-Wartungszyklus zu starten, um dafür zu sorgen, dass alle Addons funktionieren.
Die Addons wie auch andere technische Hilfsmittel machen für mich nur so lange Sinn, wie diese technische Hilfsmittel für eine Arbeitserleichterung und eine Zeitersparnis sorgen.

Ich bin dafür, dass die Entscheidung in der Frage "YaCy als Proxy" im Entwicklerteam, in der YaCy-Community im breiteren konzeptuellen Kontext betrachtet wird. Damit meine ich:

  1. wie prägt die Entscheidung, die "YaCy als Proxy"-Eigenschaft die YaCy-Lösung, das YaCy-Produkt insgesamt?
  2. Was ist YaCy-Lösung, das YaCy-Produkt insgesamt?
  3. Welche Merkmale, welche Funktionalität muss YaCy-Lösung, das YaCy- Produkt haben, um zukunftsfähig zu bleiben?
Meine persönliche Meinung zum Mehrwert der YaCy-Lösung, des YaCy-Produkts ist, dass die YaCy-Lösung, das YaCy-Produkt viele Voraussetzungen erfüllen, um ein eigenständiges autonomes Netzwerk aufzubauen und zu betreiben. Die Proxy-Funktionalität ist in meinen Augen für ein Netzwerk unverzichtbar, deswegen ist es für mich selbstverständlich, dass das YaCy-Produkt die Proxy-Funktionalität implementiert.

Gruss, flegno
Zuletzt geändert von flegno am Fr Okt 17, 2014 3:24 pm, insgesamt 5-mal geändert.
flegno
 
Beiträge: 232
Registriert: So Aug 17, 2014 4:23 pm

Re: YaCy als Proxy?

Beitragvon tinkerphone » Fr Okt 17, 2014 9:25 am

flegno hat geschrieben: ... snip ...

  1. wie prägt die Entscheidung, die "YaCy als Proxy"-Eigenschaft die YaCy-Lösung, das YaCy-Produkt insgesamt?
  2. Was ist YaCy-Lösung, das YaCy-Produkt insgesamt?
  3. Welche Merkmale, welche Funktionalität muss YaCy-Lösung, das YaCy- Produkt haben, um zukunftsfähig zu bleiben?
Meine persönliche Meinung zum Mehrwert der YaCy-Lösung, des YaCy-Produkts ist, dass die Lösung, das Produkt viele Voraussetzungen erfüllen, um ein eigenständiges autonomes Netzwerk aufzubauen und zu betreiben. Die Proxy-Funktionalität ist in meinen Augen für ein Netzwerk unverzichtbar, deswegen ist es für mich selbstverständlich, dass das YaCy-Produkt die Proxy-Funktionalität implementiert.

Gruss, flegno


Hi,
hierfür: ein eigenständiges autonomes Netzwerk aufzubauen und zu betreiben brauchst du keinen proxy. Ein p2p braucht keinen proxy. YaCy braucht keinen proxy. Die Funktion "nebenbei" zu crawlen wird im moment über das Hilfsmittel "proxy" gelöst. Hierfür kann aber auch ein addon benutzt werden. Egal wie, ein crawl / minute über proxy, addon oder das backend (wenn du im Admin Bereich einen crawl auslöst) hat immer die gleichen Auswirkungen. Somit auch die gleiche systemlast.

Die Aussage "bei 1 crawl / minute kannst du gemütlich andere dinge tun" stimmt natürlich nicht ganz. Wenn du dein YaCy für andere freigibst oder am indexaustausch teilnimmst, bedeutet dies natürlich auch Arbeit für deinen Computer.
tinkerphone
 
Beiträge: 26
Registriert: Fr Okt 10, 2014 10:38 am

Re: YaCy als Proxy?

Beitragvon flegno » Fr Okt 17, 2014 10:33 am

tinkerphone hat geschrieben:hierfür: ein eigenständiges autonomes Netzwerk aufzubauen und zu betreiben brauchst du keinen proxy. Ein p2p braucht keinen proxy. YaCy braucht keinen proxy.

Bin dafür, dass die Frage "Braucht YaCy einen proxy?" erst diskutiert, beantwortet wird, wenn man sich im breiteren konzeptuellen Kontext über die Antworten auf die Fragen 1 bis 3 - s. oben - geeinigt hat. Ich kann mir vorstellen, dass YaCy als Produkt zukunftsfähiger sich positionieren kann, wenn man auf die Einschränkung "YaCy ist _nur_ ein p2p-Netzwerk." verzichtet und als Ziel "YaCy ist ein Netzwerk." anvisiert.

Gruss, flegno
flegno
 
Beiträge: 232
Registriert: So Aug 17, 2014 4:23 pm

Re: YaCy als Proxy?

Beitragvon TmoWizard » Fr Okt 17, 2014 10:55 am

Guten Morgen zusammen!

Von was für einem Add-on ist da die Rede? Für welchen Browser bitte und für welches System? Was soll das Add-on bezwecken? Schon mal bedacht, daß auch gar nicht jeder Browser Add-ons verwenden kann?

Hier muß bedacht werden, daß nicht alle das Gleiche verwenden. Ich z. B. arbeite hier mit Linux/Kubuntu und mein Browser ist SeaMonkey! Es wäre bei einem Add-on für Firefox also möglich, daß es bei mir auch läuft. Doch wie sieht das aus bei Chrome, Safari, Internet Explorer, Midori, Konqueror und all den anderen Browsern, die es noch so gibt?

Ich glaube kaum, daß jemand wegen YaCy den Browser wechseln wird! Ein Add-on würde nur bedeuten, daß es für die Programmiere mehr Aufwand ist und für die Nutzer noch ein Ding, um dessen Updates sie sich kümmern müßten. Wenn ich mir dann in meinen obigen Links die verschiedenen Versionsnummern der von YaCy so betrachte wird mir klar, daß den Leuten ihre Sicherheit egal ist!

Erik_S hat geschrieben:Auf der anderen Seite kann ich natürlich verstehen warum die Leute (und auch ich) keine Remote-Crawls akzeptieren wollen, wer weiß schon was für URLs da so alles kommen und auf was für Servern man damit die eigene IP-Adresse im Logfile hinterlässt (vom User-Agent mal abgesehen).


Du hast mit diesem einen einzigen Satz den Crawler als für dich nicht brauchbar erklärt, obwohl du für den Crawler bist!

Welche Suchtiefe hast du denn bei deinem Crawler eingestellt? 1 oder was? Dann kannst du gleich den Proxy verwenden. Spätestens aber einer Tiefe von 3 kannst du nicht mehr kontrollieren, was in deinem Index landet:

  1. die zu crawlende Website
  2. Die dort verlinkten Websites
  3. Die verlinkten Sites auf den verlinkten Sites

Das ist wie ein Schneeballsystem:

Gehen wir mal von 10 Links pro Site aus, das läßt sich noch relativ überschaubar berechnen:

Die erste Site hat also 10 Links, die nächsten 10 Websites wären dann schon 10*10 Links, also 100 Sites. Diese 100 Sites sind dann schon 100*10 Links, also 1.000 Sites! Weißt Du etwa, was dort alles oben ist?

Nun ist es aber so, daß kaum eine Site nur 10 Links enthält. Ich habe selbst einige Artikel mit 20 und mehr Links geschrieben, da kommst Du beim Crawlen mit einer Tiefe von 3 schnell mal so auf 50.000 und mehr Seiten! Kannst Du mir sagen, was dort alles auf diesen Servern/Websites ist? Mein Index geht wie schon geschrieben langsam in Richtung 11 Millionen Dokumente, von denen ich wohl nur einen geringen Bruchteil je gesehen habe. Mit dem Proxy alleine hätte ich das natürlich nicht geschafft, aber es waren bisher nur 3 Crawler daran beteiligt!

Wenn ich sämtliche Sites, die ich seit der Installation von YaCy besucht habe gecrawlt hätte, dann wäre ich jetzt bei den "Active Principal" wohl einsam an erster Stelle, die derzeit dort stehenden 75,8 Millionen Links/Dokumente schaffe ich locker bei einer Suchtiefe von 3!

Ich bin ab Ende nächster Woche für ein paar Tage außer Haus, dann kann ich ja spaßeshalber mal einen Crawler mit der Suchtiefe 5 "nur" auf meine eigentliche Homepage (nicht das Blog!) loslassen. Dann wird nicht nur mein Blog inklusive neuer Kommentare und Artikel neu indexiert, da kommen dann auch ein paar Verlage (Heise, Golem, Spiegel, Zeit, Welt...), die Wikipedia, Blogs und was weiß ich noch alles dazu!

Du weißt also nicht, welche URLs da so kommen als "Active Principal and Senior Peer"? Na und? Das weißt Du jetzt mit deinem eigenen Crawler garantiert auch nicht, das geht nämlich nur mit dem Proxy und den direkt von dir besuchten Sites bei kleinstmöglicher Suchtiefe! Dein Index wird dann allerdings nicht sonderlich groß werden, denn besonders viele Sites wirst du ja auch nicht ansurfen.

Ich bin nicht gegen den Crawler, der erfüllt schon seinen Sinn und Zweck und ich verwende ihn ja auch immer mal wieder. Für einen normalen Anwender ist der Proxy allerdings die einfachere und bessere Wahl, vor allem dann, wenn man wie Du nicht jeden möglichen Unsinn im eigenen Index haben will! Der eigene Crawler eignet sich nur dann, wenn man so viele Websites/Dokumente wie möglich indexieren will.
TmoWizard
 
Beiträge: 145
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: YaCy als Proxy?

Beitragvon Orbiter » Fr Okt 17, 2014 11:59 am

der Proxy ist für das P2P Netz nicht notwendig, liefert aber eine 'witzige' (irgendie nicht genutzte) Funktion, die ein routing von YaCy-Peers über die virtuelle TLD .yacy (für YaCy host names) und .yacyh (für YaCy peer hash host names) ermöglicht. Aufgrund eines Feature Requests der Uni Basel gibt es nun auch ein Push-Interface, welches zusammen mit der /yacy/seedlist.json benutzt werden könnte, um einen externen Proxy für YaCy bereitzustellen, der den internen vollständig, mit allen Funktionen ersetzen kann.

Das Push-Interface könnte man nutzen um alles, was durch den Proxy geht zu indexieren und die Seedlist kann man für die Auflösung der virtuellen TLD .yacy und .yacyh benutzen.

Irgendwie witzig, man könnte YaCy in einer ungefähr 9 Jahre alten Version nehmen (oder den aktuellen), alles zur Suche entfernen und nur eine Client-Schnittstelle zu den beiden o.g. APIs machen, und man hätte dann genau so einen externen Proxy. Will das mal einer versuchen?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: YaCy als Proxy?

Beitragvon TmoWizard » Fr Okt 17, 2014 12:28 pm

Hallo Orbiter,

das hört sich ja interessant an! Jedoch sind meine Kenntnisse der englischen Sprache "etwas" eingerostet, da ich das seit dem Ende meiner Schulzeit vor inzwischen über 30 Jahren kaum mehr benötigt habe.

Ich muß allerdings sagen, daß mir der eigene Proxy doch etwas lieber ist wie ein externer. Ich habe gerne selbst die Kontrolle darüber was da passiert, auch wenn das nicht immer klappt.

Außerdem stellt sich mir dabei die Frage, ob YaCy auf Dauer dann noch eine dezentrale Suchmaschine bleibt. Wenn alle eventuell irgendwann nur noch auf "den einen" zentralen Proxy-Server zugreifen würden, dann hätten wir nämlich wieder eine "normale" Suchmaschine und das ursprüngliche dezentrale Prinzip von YaCy wäre gestorben!
TmoWizard
 
Beiträge: 145
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: YaCy als Proxy?

Beitragvon Orbiter » Fr Okt 17, 2014 12:29 pm

neinnein, es geht nicht um einen zentralen Proxy sondern um ein Add-On das du dir neben YaCy installieren würdest.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: YaCy als Proxy?

Beitragvon Erik_S » Fr Okt 17, 2014 12:42 pm

Hallo,

TmoWizard hat geschrieben:Es gibt dort außer mir (P-C-I) kaum jemanden, bei denen der Crawler überhaupt erlaubt oder aktiv ist! Obwohl ich mit diesem Rechner nebenbei auch arbeite habe ich YaCy so eingestellt, damit auch andere etwas davon haben.
Dort ist die Rede vom "akzeptieren von Remote-Crawl-Aufträgen", das meint das der jeweilige Peer bereit ist von anderen Peers Crawl-Aufträge anzunehmen damit die Crawl-Last auf mehrere Peers verteilt werden kann. Dieses Feature ist meiner Meinung nach das Feature einer verteilten Suchmaschine. Aus technischer Sicht sollte dieses Feature bei allen Peers per default eingeschaltet sein (wenn das Problem mit dem User-Agent gelöst wäre) aber aus rechtlicher Sicht (wegen der Haftung für die eigene IP-Adresse wenn diese plötzlich in den Logs von Servern auftaucht auf denen man besser nicht sein sollte) ist es in Ländern wie Deutschland faktisch unmöglich dieses Feature zu aktivieren.

Ob der betreffende Peer den eigenen Crawler mit eigenen Jobs beauftragt ist in den von Dir verlinkten Listen nicht ersichtlich (diese Information verbreitet kein YaCy-Peer).

TmoWizard hat geschrieben:Sinn und Zweck einer Suchmaschine ist ja wohl, daß sie so viele Suchtreffer wie möglich ergibt.
Ganz genau, und deswegen ist das brutale crawlen möglichst kompletter Web-Sites auch so wichtig. Schließlich sind die besten Suchtreffer nicht immer nur in den Seiten vorhanden die Du (oder jemand anderes) bereits besucht hast.
Das "nebenbei crawlen" erzeugt nur eine Art durchsuchbare Browsing-History aber eben keine vollständige Sicht aufs Web (okay das geht sowieso nicht dafür ist das Web viel zu groß). Meiner Meinung nach ist das "nebenbei crawlen" wichtig um den Index möglichst aktuell zu halten und stellt ein unverzichtbares Feature dar aber es ist nur ein Teil des Gesamtsystems "Suchmaschine".

tinkerphone hat geschrieben:Warum braucht crawlen aber so viel mehr "power"? Einfach weil der crawler viel viel schneller sites besucht als du surfen kannst.
Richtig, wobei ich bei mir (mit einem relativ dicken PC) festgestellt habe das die Hauptbremse die Limitierung auf maximal 2 Seiten pro Sekunde ist. Deswegen hätte ich gerne eine alternative Limitierung die sich in Bytes pro Sekunde einstellen lässt.
@Orbiter:
wäre sowas möglich? also eine alternative Limitierung in Bytes pro Sekunde

flegno hat geschrieben:Ich bin im www unterwegs, erledige meine tägliche Arbeit und kann mich darauf verlassen ....
Das wäre bei der Lösung mit dem AddOn in gleicher Weise gegeben. Das ist meiner persönlichen Meinung nach kein Argument für den Proxy in YaCy.

flegno hat geschrieben:
Erik_S hat geschrieben:Auf der anderen Seite kann ich natürlich verstehen warum die Leute (und auch ich) keine Remote-Crawls akzeptieren wollen, wer weiß schon was für URLs da so alles kommen und auf was für Servern man damit die eigene IP-Adresse im Logfile hinterlässt (vom User-Agent mal abgesehen).
Ich muss zugeben, ich blicke hier nicht durch, ob und wie eng das wichtige Thema "Crawl-Missbrauch" mit dem "YaCy als Proxy?"-Thema verknüpft ist. Falls die Verzahnung dieser Themen kein Zwang ist, bin ich dafür, diese Themen getrennt, in separaten Threads zu diskutieren.
Es geht darum dass das Feature "Remote Crawls" die Last des Crawlens über mehrere Peers verteilen würde und damit den einzelnen Peer entlasten könnte. Damit wäre es für viele Betreiber eines Peers eventuell doch interessant richtige Crawl-Jobs aufzusetzen. Ohne die Remote-Crawls wird nur der Index selber über alle Peers verteilt, mit den Remote-Crawls wird auch die Last des Crawlens über alle Peers verteilt, das wäre eine super Demonstration des Aspekts "Verteilt". Aber leider stehen dieser technisch guten Lösung politische Probleme im Weg, nur allein das wollte ich zum Ausdruck bringen. Das ist auf jeden Fall kein Argument für oder gegen einen Proxy in YaCy.

flegno hat geschrieben:Erfahrung, Wahrnehmung mit/der Addon-Implementierung aber ist, dass diese wahrscheinlich wartungsintensiver
Ja, das ist wohl war. Das ist meiner Meinung nach das einzigste echte Argument das für den Proxy und gegen AddOns spricht. Auf der anderen Seite muss man auch klar sagen dass das Entwickeln von AddOns nicht so extrem aufwendig ist dass das wirklich ein K.O.-Kriterium wäre. Nebst dessen das die Implementierung eines Proxy in YaCy ebenfalls einen gewissen Aufwand darstellt (und auch Potential für Fehler bietet wie die 403-Fehler zeigen).

flegno hat geschrieben:Ich bin dafür, dass die Entscheidung in der Frage "YaCy als Proxy" im Entwicklerteam, in der YaCy-Community im breiteren konzeptuellen Kontext betrachtet wird.
Ja, da bin ich absolut dafür.
Es sollten aber alle relevanten Aspekte berücksichtigt werden. Dazu gehört ebenfalls die Frage welche Lösung langfristig überhaupt einen angemessenen Nutzen bringen wird. Und da sieht es für den Proxy im Zusammenhang mit verschlüsselten Web-Seiten schlecht aus, dieses Problem ist nur mit einem AddOn lösbar. Darüber hinaus sollte auch nach Nebenwirkungen der einzelnen Möglichkeiten gefragt werden. Da hat der Proxy ebenfalls das nachsehen, er bietet mehr potentielle Probleme wie z.B. den 403-Fehler oder unbeabsichtigte Fehlkonfiguration die zu einem offenen öffentlichen Proxy führen (siehe http://forum.yacy-websuche.de/viewtopic.php?t=5411).

flegno hat geschrieben:Die Proxy-Funktionalität ist in meinen Augen für ein Netzwerk unverzichtbar, deswegen ist es für mich selbstverständlich, dass das YaCy-Produkt die Proxy-Funktionalität implementiert.
Auch wenn der Proxy mit zunehmender Verschlüsselung der Web-Seiten immer weniger Nutzwert bringt?
Die Kosten für ein anständiges SSL-Zertifikat sinken seit Jahren permanent und mit HTTP 2 soll Verschlüsselung zum "Must-Have" werden. Als User im Internet bin ich von dieser Entwicklung sehr erfreut. Chromium und Firefox binden bereits eine Liste von Domains ein die nur noch verschlüsselt erreichbar sein sollen, das heist der Browser weigert sich diese Domains ohne Verschlüsselung anzusteuern. Diese Liste ist zwar zur Zeit noch recht überschaubar aber ich hoffe sehr dass das nicht lange so bleibt.

flegno hat geschrieben:auf die Einschränkung "YaCy ist _nur_ ein p2p-Netzwerk." verzichtet und als Ziel "YaCy ist ein Netzwerk." anvisiert
Könntest Du das Bitte mal etwas erläutern. Ich verstehe nicht welche "Einschränkung" eine P2P-Suchmaschine hat bzw. was mit "YaCy ist ein Netzwerk" gemeint ist.

Orbiter hat geschrieben:kann man für die Auflösung der virtuellen TLD .yacy und .yacyh benutzen
Wenn ich das nächste UpDate meines Analyse-Tools durchführe ist das bereits enthalten, dann werden auch die URLs /forward?hash=.... und /forward?name=.... richtig funktionieren (die sind bereits in der aktuellen Version des Tools enthalten liefern aber noch keine korrekten IP-Adressen oder unnötige Fehler, probiers ruhig mal aus). Die Funktionalität als richtiger HTTP-Proxy, also durch Auswertung des Host-Feldes im HTTP-Request und durch Support für CONNECT, kommt als nächstes.

Grüße
Erik
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am

Re: YaCy als Proxy?

Beitragvon Erik_S » Fr Okt 17, 2014 12:52 pm

Hallo,

TmoWizard hat geschrieben:
Erik_S hat geschrieben:Auf der anderen Seite kann ich natürlich verstehen warum die Leute (und auch ich) keine Remote-Crawls akzeptieren wollen, wer weiß schon was für URLs da so alles kommen und auf was für Servern man damit die eigene IP-Adresse im Logfile hinterlässt (vom User-Agent mal abgesehen).
Du hast mit diesem einen einzigen Satz den Crawler als für dich nicht brauchbar erklärt, obwohl du für den Crawler bist!
Äh, nein. Den Unterschied zwischen eigenen Crawl-Jobs und Remote-Crawls habe ich ja schon erklärt.

Bei eigenen Crawl-Jobs bleibt der Crawler meines Wissens nach immer in der vorgegebenen Domain, egal welche Suchtiefe eingestellt wurde. Zumindest habe ich bisher noch nichts anderes beobachtet.

Grüße
Erik
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am

Re: YaCy als Proxy?

Beitragvon TmoWizard » Fr Okt 17, 2014 12:53 pm

Orbiter hat geschrieben:neinnein, es geht nicht um einen zentralen Proxy sondern um ein Add-On das du dir neben YaCy installieren würdest.


Dann stellt sich mir wieder die Frage, was denn einfacher zu warten ist:

  1. YaCy in seiner jetzigen Form für alle Systeme und Browser(Java!)
  2. YaCy und ein Add-on für keine Ahnung wie viele Browser und Betriebssysteme

Meine Programmierkenntnisse (C, C++, Basic, Assembler) sind zwar nicht besonders gut und auch ziemlich veraltet, aber ich sehe hier den klaren Vorteil bei der jetzigen Situation! Systemunabhängig zu programmieren ist nicht gerade ein Kinderspiel, von den verschiedenen Browsern mal ganz zu schweigen.
TmoWizard
 
Beiträge: 145
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: YaCy als Proxy?

Beitragvon TmoWizard » Fr Okt 17, 2014 12:57 pm

Hallo Erik!

Erik_S hat geschrieben:Bei eigenen Crawl-Jobs bleibt der Crawler meines Wissens nach immer in der vorgegebenen Domain, egal welche Suchtiefe eingestellt wurde. Zumindest habe ich bisher noch nichts anderes beobachtet.


Nö, dann hätte ich niemals die derzeitige Menge an Links/Dokumenten in meinem Index! Wie hätte ich denn in den paar Wochen ~11.000.000 Websites besuchen sollen, das geht ja gar nicht!
TmoWizard
 
Beiträge: 145
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: YaCy als Proxy?

Beitragvon Erik_S » Fr Okt 17, 2014 1:03 pm

Ich meine Crawl-Jobs die man explizit auf der Web-Oberfläche des YaCy-Peers eingibt und keine Jobs die per "nebenbei crawlen" entstehen. Aber ich weiß das nicht wirklich genau, ich beschreibe nur was ich bisher beobachtet habe.
@Orbiter:
könntest Du Bitte erklären welche Art von Crawl-Jobs sich wie verhalten
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am

Re: YaCy als Proxy?

Beitragvon TmoWizard » Fr Okt 17, 2014 1:04 pm

Erik_S hat geschrieben:@Orbiter:
könntest Du Bitte erklären welche Art von Crawl-Jobs sich wie verhalten


Gute Idee, ich blick da nämlich auch nicht richtig durch!
TmoWizard
 
Beiträge: 145
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: YaCy als Proxy?

Beitragvon Erik_S » Fr Okt 17, 2014 1:17 pm

Hallo,

es scheint in YaCy eine große Vielfalt an Möglichkeiten zu geben wie Crawls initiiert werden können:
  1. händisch eingegebener Crawl-Job, z.B. für eine komplette Domain
  2. "nebenbei crawlen" per Browser-AddOn (per vieler einzelner URLs)
  3. Push-Interface (für einzelne URLs oder ganze Domains? mit welcher Suchtiefe?)
  4. Proxy, hier wird alles indexiert was "vorbei fliegt" und natürlich unverschlüsselt ist (was passiert mit Binärdateien und allem anderen was ebenfalls durch den Proxy geht?)
Es wäre schön hierzu mal eine möglichst vollständige Auflistung zu haben was wie funktioniert und welche Optionen (Suchtiefe / weitere Domains / ....) bietet.

Grüße
Erik
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am

Re: YaCy als Proxy?

Beitragvon TmoWizard » Fr Okt 17, 2014 1:26 pm

Ach ja: Es ist hier schon öfter von dem Add-on die Rede gewesen, was hat es denn eigentlich damit auf sich?

Ups! Edit sagt: Ich hatte da mit der Suchtiefe des Crawlers nicht ganz recht:

YaCy-Suchmaschinentechnik (siehe Schaubild)

Dann würde das Beispiel von oben mit der von mir erwähnte Suchtiefe 3 und den Webseiten mit je 10 Links so aussehen:

    0. Die Startseite mit 10 Links
    1. 10 weitere Sites mit 10 Links: 10*10=100
    2. 100 Seiten mit je 10 Links: 100*10=1.000
    3. 1.000 Seiten mit je 10 Links: 1.000*10=10.000

Das bedeutet wohl, daß ich das mit dem Crawler doch richtig verstanden habe. Nun wundert es mich auch nicht mehr, warum YaCy bei meinem Blog so lange gebraucht hat! :shock:
TmoWizard
 
Beiträge: 145
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: YaCy als Proxy?

Beitragvon Erik_S » Fr Okt 24, 2014 8:53 am

Hallo,

ruhig geworden um dieses Thema. Da ich in den letzten Tagen intensiv an meinem Weiterleitungsmechanismus gearbeitet habe und somit auf sehr viele verschiedene YaCy-Peers gekommen bin kann ich schreiben das der Fehler 403 insbesondere bei IPv6 sehr häufig auftritt. Aus meiner Sicht besteht da wirklich Handlungsbedarf. Ganz offensichtlich hat YaCy Probleme damit dem Host-Parameter im HTTP-Request zuverlässig anzusehen ob ein Zugriff den Peer selber meint oder ob ein Zugriff per Proxy behandelt werden soll. Als erfahrener Programmierer in den Bereichen TCP/IP-Kommunikation und HTTP-Protokoll muss ich auch ehrlich sagen das ich es, gerade im Hinblick auf IPv6, für nahezu ausgeschlossen halte das dieses Problem unter Beibehaltung der momentanen Architektur überhaupt korrekt und zuverlässig lösbar ist. Aus meiner persönlichen Sicht gibt es verschiedene Möglichkeiten dieses Problem anzugehen:

  1. Der Proxy muss von dem normalen Port auf dem der YaCy-Peer selber erreichbar ist runter, das lässt sich auf zwei Wegen erreichen:
    1. der Proxy muss auf einen anderen zusätzlichen Port umziehen, das wäre aus meiner Sicht kein allzu großes Problem da der Proxy eh nur vom lokalem Netz benutzt wird und dieser Port demzufolge auch nicht über die Seedlisten u.ä. nach außen kommuniziert werden darf, es sollte in Java auch kein Problem sein auf zwei verschiedenen Ports auf Anfragen zu warten
    2. den Proxy komplett entfernen
  2. Wenn der Proxy in der Peer-Konfiguration ausgeschallten ist muss auch die Erkennungslogik im HTTP-Server (für Proxy ja/nein) ausgeschallten werden damit der problematische Fehler-Code 403 verschwindet. Das würde bedeuten das bei ausgeschalltenem Proxy die Auswertung des Host-Parameters im HTTP-Request komplett entfallen soll und jeder Zugriff grundsätzlich vom Peer selber beantwortet wird. Wenn nicht existierende URLs angefragt werden kommt eben ein 404-Fehler zurück aber bei gültigen Zugriffen (und genau da ist das Problem) kommt dafür kein 403-Fehler mehr.

Ich weiß ich mache mich hier unbeliebt wenn ich Änderungen an dem internen Proxy vorschlage aber da der Fehler 403 bei gültigen Zugriffen, gerade bei IPv6, häufig auftritt und das vor allem bei Peers die den Proxy eigentlich abgeschalltet haben, sehe ich an diesem Punkt wirklich Handlungsbedarf. Als effektivsten Weg dieses Problem anzugehen würde ich persönlich ja Variante 1b bevorzugen aber das stößt hier bekanntermaßen auf Widerspruch. Deswegen möchte ich empfehlen möglichst zeitnah die Variante 2 umzusetzen (um wenigstens die offensichtlich falschen 403-Fehler zu beseitigen) und dann könnte immer noch diskutiert werden ob die Variante 1a als zuverlässige Endlösung dieses Problems angegangen werden kann oder ob es noch andere Alternativen gibt.

Es geht mir hier wirklich nicht darum einigen YaCy-Usern lieb gewordene Gewohnheiten streitig zu machen, sondern es geht mir darum für einen kniffligen Bug in YaCy eine möglichst schnelle und halbwegs zuverlässige Lösung zu finden.
Wenn jemand alternative Vorschläge hat würde ich die hier gerne diskutieren.

Grüße
Erik
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am

Re: YaCy als Proxy?

Beitragvon fherb » So Okt 26, 2014 1:32 pm

Hallo,

Der Proxy ist zwar einfach zu installieren, prinzipiell funktioniert er auch, nur eben prinzip-bedingt nicht bei https. Und immer mehr Web-Seiten lenken nur noch auf https um. Damit ist der Weg tatsächlich zukünftig mehr und mehr sinnlos.

Das Browser-Plugin finde ich eine gute Variante, müsste aber natürlich, wenn der Proxy schon jetzt das fünfte Rad am Wagen ist, auch aktuell gehalten werden. Die Add-on-Seite von Mozilla blockiert nämlich die Installation, weil er nicht zur aktuellen Firefox-Version kompatibel ist.


Das würde erst mal nicht weiter stören, aber man findet das Plugin nicht mit den üblichen Stichworten auf den Yacy-Seiten (plugin, mozilla oder firefox). Mir ist es zumindest heute nicht gelungen. Gestern fand ich noch die Seite zum Download.
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: YaCy als Proxy?

Beitragvon fherb » So Okt 26, 2014 10:18 pm

... Habe die Yacybar jetzt doch, aber nur zum Download bei Heise gefunden. Die Version ist wohl die gleiche, wie jetzt im GIT. Dem Changelog zufolge also unverändert aus 2010.

Aber weder der "Indexierung ist an"-Button noch "Seite crawlen" funktionieren derzeit. Zumindest wird darüber nichts indiziert (Webseite "Crawler Monitor" zeigt keinen Vorgang an). Die Angaben in der Statusbar (QPH...) werden aber angezeigt. Die Verbindung zum Peer ist also hergestellt.

Wenn das funktionieren würde, wäre alles gut. ;)

Beste Grüße!
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron