blöde cgi Sperre entfernen

Ideen und Vorschläge sind willkommen.

blöde cgi Sperre entfernen

Beitragvon lulabad » Do Apr 16, 2009 9:22 am

Kann man vielleicht mal die blöde cgi Sperre beim Crawlstart entfernen?
Man kann keine Seiten crawlen, die cgi in der URL haben, das ist einfach nur sinnlos. Es gibt einige Foren und andere Seiten die immer noch mit cgis arbeiten und die möchte ich auch gerne erfassen.
Also bitte die Sperre entfernen, es sei denn irgendjemand bringt einen guten Grund warum nicht.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: blöde cgi Sperre entfernen

Beitragvon Quix0r » Do Apr 16, 2009 10:31 am

Dazu musst du in den Einstellungen cgi.allow = true setzen. Rufe dazu http://localhost:8080/ConfigProperties_p.html auf und gebe unten langsam cgi ein. Dann solltest du alles sehen, was du brauchst. :)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: blöde cgi Sperre entfernen

Beitragvon lulabad » Do Apr 16, 2009 11:19 am

Oha, das kannte ich ja noch gar nicht. Danke
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: blöde cgi Sperre entfernen

Beitragvon Orbiter » Do Apr 16, 2009 11:22 am

cgi.allow hat Marc glaube ich eingebaut, um 'echte' cgis im YaCy httpd ausführbar zu machen. Das muss aber was anderes sein als lulabads Eingangsfrage. Wie ist denn das gemeint, kann man als Crawl Start URL keine URL nehmen mit einem '?' drin? dazu muss man beim Crawl Start doch nur das "Accept URLs with '?' / dynamic URLs" flag setzen. Funktioniert das nicht?
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: blöde cgi Sperre entfernen

Beitragvon lulabad » Do Apr 16, 2009 11:34 am

Man kann keinen Crawl starten wie zb. den hier:
http://perv.i2p/stats.cgi
Crawling of "http://perv.i2p/stats.cgi" failed. Reason: cgi url not allowed

Ich bin dabei im Intranetmodus.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: blöde cgi Sperre entfernen

Beitragvon Low012 » Do Apr 16, 2009 2:24 pm

Orbiter hat geschrieben:cgi.allow hat Marc glaube ich eingebaut, um 'echte' cgis im YaCy httpd ausführbar zu machen.

Stimmt, das war ich. Ich habe übersehen, dass es da zu Verwechslungen kommen kann. Mehr Informationen zu "meinem" CGI: http://www.yacy-websearch.net/wiki/index.php/De:CGI
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: blöde cgi Sperre entfernen

Beitragvon Orbiter » Do Apr 16, 2009 2:30 pm

hinter dieser Sperre steckt folgendes Prädikat:
Code: Alles auswählen
public final boolean isCGI() {
        final String ls = unescape(path.toLowerCase());
        int pos;
        return ls.indexOf(".cgi") >= 0 ||
               ls.indexOf(".exe") >= 0 ||

               ((pos = ls.indexOf("sid")) > 0 &&
                (ls.charAt(--pos) == '?' || ls.charAt(pos) == '&' || ls.charAt(pos) == ';') &&
                (pos += 5) < ls.length() &&
                (ls.charAt(pos) != '&' && ls.charAt(--pos) == '=')
                ) ||

               ((pos = ls.indexOf("sessionid")) > 0 &&
                (pos += 10) < ls.length() &&
                (ls.charAt(pos) != '&' &&
                 (ls.charAt(--pos) == '=' || ls.charAt(pos) == '/'))
                ) ||

               ((pos = ls.indexOf("phpsessid")) > 0 &&
                (pos += 10) < ls.length() &&
                (ls.charAt(pos) != '&' &&
                 (ls.charAt(--pos) == '=' || ls.charAt(pos) == '/')));
    }


Wir hatten mal überlegt dass man Sessions-IDs filtern soll. Das scheint hier irgendwie mit eingeflossen zu sein. Aber sicherlich ist es nicht das, was du brauchst. Können wir hier nochmal überlegen was passiert wenn man die Sperre raus macht? meine erste Idee war: alle Checks oben, die sich auf die Session-ID beziehen in den Check für '?' rein ziehen, und den Rest fallen lassen. Aber macht das Sinn?
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: blöde cgi Sperre entfernen

Beitragvon Quix0r » Do Apr 16, 2009 3:14 pm

Wenn du die Session-Id mit drinne laesst, kann es bei schwach implementierten Seiten zu Kaskaden ähnlichen Dingen, wie z.B. bei Bestelllinks führen. Links mit Session-Id können aber auch manchmal schlecht implementierte Webseiten sein, wo die Suchmaschine X eine Session Y zugewiesen bekommt.

Das mit cgi.allow wusste ich nicht. :oops:
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: blöde cgi Sperre entfernen

Beitragvon lulabad » Do Apr 16, 2009 3:52 pm

Warum überhaupt *.cgi aussperren? Ich sehe darin keinen Sinn.
Bitte eine Begründung oder ganz rausschmeissen.
Die Sessionid zu extrahieren ist ja schonmal nicht ganz verkehrt und zumindest ein Anfang. Mir würde das aber besser gefallen, wenn es der User definieren könnte, so ähnlich wie die Blackliste. Dann kann man das gemütlich erweitern und auch eventuell anderen zur Verfügung stellen.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: blöde cgi Sperre entfernen

Beitragvon thq » Do Apr 16, 2009 4:39 pm

Den SID-Filter habe ich vor kurzen erst überarbeitet. Weil die die vorher da waren so gut wie nie aktiv waren. Ganz am Anfang war da nur ein Abfrage für ".cgi|exe" drin.

Sollten die SIDs ausgegliedert werden kann ich das noch erweitern, habe hier nur das was am meisten geht eingebaut, bei mir sind noch mehr aktiv. Aber mit Regex würde ich hier nicht arbeiten !
Zuletzt geändert von thq am Do Apr 16, 2009 4:44 pm, insgesamt 1-mal geändert.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: blöde cgi Sperre entfernen

Beitragvon PCA42 » Do Apr 16, 2009 4:43 pm

Warum nicht Regex? Es ist doch sinnvoller, eine URL in 0.1 Sec über einen RegEx zu entfernen statt in 1 Sec die Seiten zu laden, zu parsen und den Datenmüll dann auch noch zu verteilen (Zeitwerte als Bsp.).
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: blöde cgi Sperre entfernen

Beitragvon thq » Do Apr 16, 2009 4:45 pm

Wird isCGI nicht vorher aufgerufen bevor die Seite geladen wird ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: blöde cgi Sperre entfernen

Beitragvon lulabad » Mo Apr 20, 2009 9:56 am

Also, was ist jetzt hier los?
Ich muss diese URLs crawlen.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: blöde cgi Sperre entfernen

Beitragvon Lotus » Mo Apr 20, 2009 2:34 pm

ab 5839 lassen die sich crawlen.
Historisch sieht es wohl so aus, dass die Option ursprünglich aus dem Proxy kommt, über den noch heute keine CGI-Seiten indexiert werden.

In der Crawl-Delay Berechnung ist diese Option auch noch eingesetzt, dort greift es aber nur bei .cgi? Was ist an CGI langsamer als an anderen dynamischen Script-Sprachen?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: blöde cgi Sperre entfernen

Beitragvon Low012 » Mo Apr 20, 2009 3:01 pm

Bei CGI-Programmen ist es so, dass gewöhnlich beim Aufruf ein neuer Prozess außerhalb des Webservers gestartet wird. Ist das CGI-Programm z.B. als Perl-Skript implementiert, muss auch noch jedesmal ein Interpreter gestartet werden. Bei anderen dynamischen Inhalten (JSP, PHP, ASP) läuft die Erzeugung der Seite komplett im Applicationserver, was wahrscheinlich in vielen Fällen schneller geht, weil der Aufruf weniger aufwändig ist. Ob aber hinter einem .cgi wirklich ein CGI-Skript steckt oder ob das nur noch aus historischen Gründen so heißt, ist aber wahrscheinlich nur anhand der Antwort des Servers schwer oder gar nicht bestimmbar.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: blöde cgi Sperre entfernen

Beitragvon Quix0r » Mo Apr 20, 2009 3:02 pm

@Lotus: Eigentlich nichts, da es meistens Perl ist. Okay, auf IIS-Servern wohl eher ein Exe-File... :D
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: blöde cgi Sperre entfernen

Beitragvon lulabad » Mo Apr 20, 2009 4:54 pm

Lotus hat geschrieben:ab 5839 lassen die sich crawlen.

Vielen Dank!
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron