Proxy soll Urls mit Fragezeichen indizieren (Foren)

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Proxy soll Urls mit Fragezeichen indizieren (Foren)

Beitragvon Sebastaib » Mi Okt 15, 2008 10:44 pm

Hallo Leute,
Erst mal ein großes Lob an Yacy. Super Projekt.

Ich hab nur ein kleines Problem.
Ich surfe viel durch Foren meistens geht es dabei um Programmieren oder Elektronik.
Da schnappe ich hin und wieder den einen oder anderen hilfreichen Post auf.
Deshalb habe ich mir zur Gewohnheit gemacht diese als Bookmarks abzulegen, damit ich sie bei bedarf wieder finde.
Im Moment geht diese Sammlung auf die 2000marks zu.
Das ganze zu verwalten ist natürlich ein großer Akt.
Und darin zu Suchen is trotz der Funktionen von FF3 auch net so doll.
Die Idee war : Yacy im Modus "Suchportal für Ihre eigene Internetseiten" auf meinem Homeserver aufsetzen und dann als Proxy benutzen.
Dann kann Yacy die Forenposts indizieren, ich hab dann mein eigenes kleines Suchportal und kann die da drüber wieder finden.
Allerdings hab ich das Problem das der Proxy sich ja weigert Urls mit Fragezeichen, Cookies usw. zu indizieren, und da die wenigsten Foren mod_rewrite benutzen um normale Urls zu simulieren bringt mir mein Minisuchportal im Moment recht wenig.

Ich weiß natürlich, dass das 'zu meiner Sicherheit passiert', aber da der Index ja mein Privatspielplatz ist und Port 8080 bei mir von außen nicht erreichbar ist, wäre es ja zu verantworten das abzustellen.

Gibt es irgend ein Configfile oder eine 'versteckte' Einstellung mit der das geht ?
Wenn nicht, kann mir vielleicht jemand sagen wo ich ansetzen muss um Yacy für meine Zwecke zu patchen ? (keine Panik neben C/C++ kann ich auch Java)
Ginge es vllt. das Crawlerprofil proxy zu verbiegen ?

Schon mal vielen Dank im Vorraus
Sebastian
Sebastaib
 

Re: Proxy soll Urls mit Fragezeichen indizieren (Foren)

Beitragvon DanielR » Do Okt 16, 2008 12:45 am

Ich weiß nicht ob es geht ohne die Privacy Sachen zu crawlen(? ist ja eine Crawl-Option). Aber mit der YaCy-Bar kann man die aktuelle Seite per Knopfdruck indizieren. Dabei werden solche Filter IMHO ignoriert.
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Proxy soll Urls mit Fragezeichen indizieren (Foren)

Beitragvon Orbiter » Do Okt 16, 2008 8:39 am

Hallo Sebastaib,
die Privacy-Schranken in YaCy zu durchlöchern ist nicht gut. Auch wenn du keinen Port offen hast können dir im Junior-Modus dann doch die Seiten 'entfliehen', denn der Peer propagiert auch dann seinen Index nach aussen. Nur im Robinson-Modus wärst du sicher.

Für deinen Anwendungsfall muss es aber eine Lösung geben, ohne die Sicherheitskonzepte zu ändern. Wie DanielR schreibt wäre die YaCyBar eine gute Lösung für dich. In Der Bar kann man einstellen, ob die ad-hoc Indexierung auch Seiten mit '?' aufnehmen soll, und ob es nur die aktuelle Seite (Tiefe 0) oder Umgebungen (Tiefe 1) mit aufnehmen soll. Deine bisherigen 2000 Bookmarks kannst du in ein File exportieren, und in YaCy als Crawl-Start importieren.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Proxy soll Urls mit Fragezeichen indizieren (Foren)

Beitragvon Sebastian » Do Okt 16, 2008 12:23 pm

Okay danke ...
Das mit den alten bookmarks hab ich schon selbst gemerkt.
Jetzt ist der Server erst mal mit crawlen beschäftigt.

Die YacyBar ist echt ganz praktisch. Ich denke das dürfte meinen Ansprüchen genügen.

Vielen Dank für die schnelle Hilfe
Sebastian (mit n net mit b :D)
Sebastian
 

Re: Proxy soll Urls mit Fragezeichen indizieren (Foren)

Beitragvon Jazzy » Do Feb 16, 2012 8:01 pm

Es würde mich auch interessieren wie man das einstellen kann, dass URLs mit Fragezeichen standardmässig vom Proxy indiziert werden. Soweit ich das erkennen kann, wurde diese Frage hier aber noch nicht beantwortet.
Jazzy
 
Beiträge: 36
Registriert: Mo Okt 31, 2011 5:29 pm

Re: Proxy soll Urls mit Fragezeichen indizieren (Foren)

Beitragvon Orbiter » Do Feb 16, 2012 11:19 pm

leider gar nicht. es mag zwar nicht-personalisierte seiten mit fragezeichen geben, aber es wäre zu unsicher diese alle zuzulassen.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Proxy soll Urls mit Fragezeichen indizieren (Foren)

Beitragvon Quix0r » Fr Feb 24, 2012 3:32 pm

Ein gutes Beispiel sei mal GMX. Dort kann man sich u.a. mit abgeschalteten Cookies (Standart-Einstellung bei mir) einloggen und seine Mails lesen. Die Personalisierung erfolgt dann ueber die URL (so was wie eine "Session-Id" und Kundennummer ist vorhanden), wuerde der Proxy hier URLs mit Fragezeichen crawlen, waeren schwupp deine Mails in YaCy drinne. Und das will normalerweise keiner...

Aber wer weiss ... :roll:
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Proxy soll Urls mit Fragezeichen indizieren (Foren)

Beitragvon Mohnbrötchen » Fr Mär 16, 2012 11:17 pm

Hallo zusammen!

Ich habe vor einigen Monaten versucht alle meine aufrufe über den Proxy indizieren zu lassen. Wegen den Sicherheitseinstellungen hat das natürlich nicht geklappt was ich sehr schade fand. Viel zu oft muss ich Google bemühen wenn ich z.b. nach einem Beitrag in Forum suche den ich mir nochmals durchlesen möchte.

Kann sich einer erbarmen und uns sagen wie wir die Sicherheitseinstellung vollständig deaktivieren können? Ich möchte Goggle nicht fetter machen als es schon ist. Ich habe YaCy so eingestellt habe das nichts nach außen leak und bin der einzige der diesen Proxy verwendet.
Mohnbrötchen
 
Beiträge: 1
Registriert: Fr Mär 16, 2012 10:42 pm
Wohnort: Krefeld

Re: Proxy soll Urls mit Fragezeichen indizieren (Foren)

Beitragvon Lotus » Sa Mär 17, 2012 8:58 am

Mohnbrötchen hat geschrieben:Kann sich einer erbarmen und uns sagen wie wir die Sicherheitseinstellung vollständig deaktivieren können? Ich möchte Goggle nicht fetter machen als es schon ist. Ich habe YaCy so eingestellt habe das nichts nach außen leak und bin der einzige der diesen Proxy verwendet.

Der Ausschluss privater Seiten ist in YaCy hart codiert und lässt sich nur mit einer eigenen Version ausschalten.

Man könnte statt den Proxy zu benutzen, auch jede URL die angesurft wird als Crawl-Start der Tiefe 0 (nur diese Seite) indizieren. Das müsste dann über eine Browser-Extension wie z.B. die YaCy-Bar geschehen. Es gibt aber im moment niemanden der die YaCy-Bar pflegt und das einbauen könnte.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste