[CLOSE] 6610: YaCy rennt in Spider-Trap.de Falle

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

[CLOSE] 6610: YaCy rennt in Spider-Trap.de Falle

Beitragvon Quix0r » Fr Jan 22, 2010 12:49 pm

Spider-Trap ist ein Script gegen boese Bots, die z.B. nur Adressen sammeln wollen. Nun hat es auch YaCy wo getroffen, ich kann jedoch keinen Anhaltspunkt im Logfile finden. Hier das Log:
quix0r@quix0r:~/yacy$ grep http://www.tee-handel.com DATA/LOG/yacy*.log
DATA/LOG/yacy016.log:I 2010/01/22 11:27:32 PLASMA crawlReceipt: RECEIVED RECEIPT from IFlRzri68___:KIT01-05-checker/0.93006593 for URL KcnhVFYQK3jZ:http://www.tee-handel.com/product_info.php/products_id/149
DATA/LOG/yacy01.log:D 2010/01/22 12:38:47 ROBOTS Trying to download the robots.txt file from URL 'http://www.tee-handel.com/robots.txt'.
DATA/LOG/yacy01.log:D 2010/01/22 12:38:48 ROBOTS Access to Robots.txt not allowed on URL 'http://www.tee-handel.com/robots.txt'.
DATA/LOG/yacy05.log:D 2010/01/22 12:06:44 ROBOTS Trying to download the robots.txt file from URL 'http://www.tee-handel.com/robots.txt'.
DATA/LOG/yacy05.log:D 2010/01/22 12:06:44 ROBOTS Access to Robots.txt not allowed on URL 'http://www.tee-handel.com/robots.txt'.
DATA/LOG/yacy05.log:I 2010/01/22 12:06:48 PLASMA crawlReceipt: RECEIVED RECEIPT from LFigSk3e6W__:KIT02-06-ori/0.93006593 for URL Kj6WkFYQK3jZ:http://www.tee-handel.com/product_info.php/products_id/224

Hier die robots.txt:
User-agent: *
Disallow: /includes/
Disallow: /pub/
Disallow: /download/
Disallow: /error404.html
Disallow: /login.php
Disallow: /logoff.php
Disallow: /account.php
Disallow: /product_reviews_write.php
Disallow: /shopping_cart.php
Disallow: /checkout_payment.php
Disallow: /checkout_shipping.php
Disallow: /checkout_success.php
Disallow: /checkout_shipping_address.php
Disallow: /checkout_payment_address.php
Disallow: /checkout_confirmation.php
Disallow: /banner/
Disallow: /flitz/
Disallow: /elmar_config.inc.php
Disallow: /elmar_products.php
Disallow: /elmar_request.php
Disallow: /elmar_shopinfo.php
Disallow: /flitz_start.php
Disallow: /silomut/
Disallow: /ssl_check.php
Disallow: /tell_a_friend.php
Disallow: /Order_Info.php
Disallow: /Order_Info_Process.php
Disallow: /password_forgotten.php
Disallow: /paypal_popup.php
Disallow: /popup_search_help.php
Disallow: /popup_coupon_help.php
Disallow: /popup_conditions.php
Disallow: /info_shopping_cart.php
Disallow: /create_account_success.php
Disallow: /create_account.php
Disallow: /address_book_process.php
Disallow: /address_book.php
Disallow: /add_checkout_success.php
Disallow: /account_edit.php
Disallow: /account_history.php
Disallow: /account_history_info.php
Disallow: /account_newsletters.php
Disallow: /account_notifications.php
Disallow: /account_password.php
Disallow: /googlesitemap/
Disallow: /ext/
Disallow: /banner/
Disallow: /ipn.php
Disallow: /admin/
Disallow: /administrator/

User-agent: AdsBot-Google
Disallow: /

Vielleicht aber war meine IP vorher durch einen belegt, der dort Mist gebaut hat, weiss ich nicht. Kann das mal ausgetestet werden?
Zuletzt geändert von Quix0r am Do Sep 23, 2010 4:44 am, insgesamt 2-mal geändert.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: SVN 6610: YaCy rennt in Spider-Trap.de Falle

Beitragvon Quix0r » So Mär 28, 2010 10:53 pm

Spider-Trap liegt hier unter /admin/ (einfach mal an die URL dranhaengen!), es ist auch in der robots.txt ausgeschlossen, jedoch scheint das YaCy zu ignorieren? YaCy muesste eigentlich auf * ansprechen und dann erkennen, dass er /admin/ (wegen der Disallow-Zeile) nicht crawlen darf.

Ich teste das gleich mal mit der aktuellen Revision 6780 aus.

Edit: Scheint nicht mehr der Fall zu sein.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron