sinnvolle Regexen

Ereignisse, Vorschläge und Aktionen

sinnvolle Regexen

Beitragvon lisema » Do Jan 01, 2009 7:33 pm

Moin,

hier mal ein Mitmach Thread für Personen, die nicht Programmieren und denken nicht viel beisteuern zu können.

Beobachtet bitte mal eure Crawler und sucht auffällige Muster, wo sich die Crawler verlaufen. Bei Mediawikis sind das zB die "Special:" URLs, bei anderen werden 404 Meldungen ausgeliefert, die Mist liefern. Dort kann man teilweise mit Regexen die Indizes sauber halten.

Ich habe Testweise einfach URLS gecrawled, limitiert auf die Domain, mit Tiefe 20, dort sind einige Hunderttausend Special: Domains bei kleinen Wikis aufgetaucht, bei Joel on Software hat sich der Crawler an 404ern verschluckt. Insgesamt sind nach Anwendung verdächtiger Regexen ca ein Drittel an URLs verschwunden. (Nach der langen Zeit des durchlaufens)

Also Bitte beobachten und hier mal sammeln, ich habe die Regexen danach erstmal verdrängt, möchte hier nun aber zum sammeln solcher aufrufen :)

Also postet Ungereimtheiten an URLs die Fehlverhalten bedeuten, sowie Regexen dagegen, und auch den Grund was es verursacht (zB Mediawiki)

frohes Neues
Lisema
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: sinnvolle Regexen

Beitragvon PCA42 » So Jan 04, 2009 6:32 pm

An der Stelle kann ich doch sicherlich mal etwas Fleißarbeit machen. Ich brauche nur noch ein paar Informationen.

1. Was soll das Ziel sein?
Anhand deiner Beispiel geht es meines Erachtens darum, diese speziellen Seiten aus dem Index auszuschließen. Soll hier also eine erweiterte Blacklist entstehen?
2. Wo finde ich eine Seite, die Regex gut für Anfänger erklärt?
Muss da wohl mal mir ein paar Sachen anschauen, damit ich keine halbfertigen Sachen erstelle. Sonst dauert das Nacharbeiten länger als die Erstellungszeit.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: sinnvolle Regexen

Beitragvon lisema » Mo Jan 05, 2009 2:27 am

Erstmal etwas zu Regexen:
Regexen gibt es wie Sand am Meer, was hier verwendet wird sind vermutlich die normalen Java Regexen

http://java.sun.com/docs/books/tutorial ... ial/regex/
http://leib.be/sascha/files/RegexCheatSheet.pdf
http://www.omicentral.com/cheatsheets/J ... tSheet.pdf

Mal anschauen wie gut du damit zurechtkommst. Oben die Sun Erklärungen unten Kurzformen :)

Was soll das ziel sein?
Installier einmal eine frische YaCy Instanz parallel und lass sie auf ein kleines Wiki los (wiki.freeculture.org, Crawltiefe 20, beschränken auf die Domain) Nach einiger Zeit wirst du sehen, dass die SpezialSeiten sich weiter verschachteln. Special:Whatlinkshere:Special: oder so Ähnlich.
dh da frisst sich der Crawler fest und lieftert huntertemale Müll.

Das zweite Beispiel ist Joelonsoftware.com wieder auf die Domain beschränken und mit einer Tiefe von 20 crawlen, was passiert?
es entstehen nette /articles/articles/articles URLs, aber warum? Da ist eine 404 Meldung mit Links, die wieder neue URLs generiert.

Im ersten Fall hast du eine Standardsoftware, Mediawiki, die dich im Kreis verlinkt unter unterschiedlichen URLs, dh das passiert mit Standardeinstellungen vielleicht in jedem(!) Mediawiki. Es gilt nun zu schauen, ob andere Standard Dinger ähnliche Macken haben, die die Crawler verwirren. Beim zweiten Fall bin ich mir nicht sicher, ob das nur Seitenspezifisch ist.

Ich hoffe damit alle etwas Erleuchtung gebracht zu haben :)

EDIT: dont drink and type
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: sinnvolle Regexen

Beitragvon Lotus » Mo Jan 05, 2009 12:11 pm

lisema hat geschrieben:es entstehen nette /articles/articles/articles URLs, aber warum? Da ist eine 404 Meldung mit Links, die wieder neue URLs generiert.

Das ist nur problematisch, wenn der Webserver die 404-Seite falsch mit HTTP Status 200-OK liefert.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: sinnvolle Regexen

Beitragvon lisema » Mo Jan 05, 2009 2:01 pm

Lotus hat geschrieben:Das ist nur problematisch, wenn der Webserver die 404-Seite falsch mit HTTP Status 200-OK liefert.


Jo das dachte ich mir schon. Frage ist ob das bestimmte Software gerne macht. Wenn eine kleine frickelseite das macht, egal. Wenn Wordpress sowas verhunzt, sollte man es sich mal anschauen, nach welchem Schema Probleme auftreten :)
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: sinnvolle Regexen

Beitragvon lisema » Mi Jan 07, 2009 6:01 pm

.*qed-portal.com/.*
Die Seite zeichnet Maps von zusammenhaengen
Bsp: qed-portal.com/cs/last_fm/recent/4972/12
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron