wikipedia robot.txt

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

wikipedia robot.txt

Beitragvon liebel-lab » Do Nov 06, 2008 7:35 am

...bemerke gerade , dass auch yacy von der wikipedia ausgeschlossen wurde...
nichrt aktiv, aber durch den missbrauch vieler bots passiv ......der unten stehende link ist ganz nett zu lesen...da gut kommentiert was alles passiert.

http://de.wikipedia.org/robots.txt

im sciencenet wurde mehrere maschinen gerzielt mit der IP geblockt....als wir auf 20ppm (nur die wikipedia) umstellten war fuer ca 6 wochen alles in ordnung....
bis gestern :-) ...
evtl kleines problem: die moderaten einstellungen des sciencenet bezueglich crawlen der wikipedia treffen viell. nicht auf einen crawl aus dem "freeworld" zu und der bort wuerde wieder blockiert werden....
mal sehen ob wir wenigstens eine IP basierte freigabe bekommen....
oder hat jemand andere ideen?
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: wikipedia robot.txt

Beitragvon Orbiter » Do Nov 06, 2008 9:34 am

vielleicht sollten wir sowas wie eine 'major'-Liste machen, die solche Domänen drin hat die wir ganz besonders mit Samthandschuhen anfassen müssen, damit wir diese Domänen nicht durch ein Blocking verlieren. die majors würden dann so gehandhabt werden, dass dort ein erhöhtes default-delay genommen wird.

diese Vorgehensweise gibt es übrigens bereits bei allen URLs mit '?', was natürlich nur dann greift wenn man einen Crawl hat wo URLs mit '?' erlaubt sind: hier wird das aktuelle delay verdoppelt, da es sich bei solchen servlet/cgi/db - Requests meist und Queries in Datenbanken handelt, und Admins leicht nervös werden wenn dort die Performance durch stören des Cachings runtergezogen wird.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: wikipedia robot.txt

Beitragvon liebel-lab » Do Nov 06, 2008 1:29 pm

Überlegung: Selbst wenn es so ene liste gaebe (sagen wir 20ppm fuer die wikipedia...bei 60ppm wurde der entsprechende rechner hier am KIT bereits von den wiki admins zum crawlen gesperrt) , wuerde durch eine vielzahl von crawls also doch wieder x mal 20ppm werden....da ja viele wikipedia heise und co starten...habe ich das richtig verstanden?
* stimmt das eigentlich dass der googlebot eine statistik fuehrt wielange ein server zum antworten fuer jede einzelne seite braucht? ...und entsaprechend langsamer wird sofer die responsetime leicht nach oben geht?
Idee :idea: : wir entwickeln einen eigenen YaCy browser und loggen so dermassen alles mit das......oh mist..die idee hatten schon andere :-D ...
Im Ernst: Ich kann mir vorstellen dass die lösung die bookmarks sind. in unseren public bookmarks wird sichelrich auch sehr haeufig wikipedia und heise.de und co auftauchen. jeder crawlstart koennte ja zum public "crawl-bookmark" werden und ebenfalls "koordiniert verteilt werden" bzw mit einem timestamp versehen werden.
so eine art: if crawlstart ...bookmarksuche....timestampergleich...damit koennte man die crawlzeiten positiv und negativ regulieren...(waere also auch eine option blacklists mit einzubinden) (= negative bookmarkliste...wenn viele eine seite als "negativ/ranken" dann wird sie entsprechend seltener gecrawlt...bzw mit angepasster geschwindigkeit)....
===> verteilte suche ==> verteiltes ranking...keine zentrale blacklist ..sondern die community entscheidet ...
bla bla kaffee leer ...:-)
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: wikipedia robot.txt

Beitragvon DanielR » Do Nov 06, 2008 11:55 pm

es wurde schon mal gesagt, dass yacy in mehreren robots geblockt wird. Evtl. ist yacy mittlerweile doch zu schnell. Ich denke, in JakartaHttpClient.java sind zu viele Verbindungen gleichzeitig zu einem Server erlaubt:
Code: Alles auswählen
        // conManager.getParams().setDefaultMaxConnectionsPerHost(4); // default 2
        conManager.getParams().setDefaultMaxConnectionsPerHost(20); // prevent DoS by mistake
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: wikipedia robot.txt

Beitragvon tara » So Nov 16, 2008 12:00 am

liebel-lab hat geschrieben:* stimmt das eigentlich dass der googlebot eine statistik fuehrt wielange ein server zum antworten fuer jede einzelne seite braucht?


Ja. Über einen Google Account kann man als Seitenbetreiber auch auf diese Daten zugreifen (Stichwort Webmastertools). Da gibt es dann Daten über Minimum, Maximum, Mittelwert (in ms) sowie eine Grafik für die letzten drei Monate. Diese gibt jedoch nur einen groben Überblick, da es eine Übersicht über Stunden oder gar Minuten nicht gibt - zumindestens nicht über den normalen Google Account.
tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Exabot [Bot] und 2 Gäste