WikiMedia Dubletten erkennen und filtern

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

WikiMedia Dubletten erkennen und filtern

Beitragvon Low012 » Sa Jan 26, 2008 10:02 pm

Mod-Edit:
von http://forum.yacy-websuche.de/viewtopic.php?f=5&t=777

liebel-lab hat geschrieben:...dann bleibt nur noch die knifflige Frage wie es auf 700.000 + x deutsche "Wikipediaseiten" kommen kann?...


Ich denke, dass sich in den 700000 eine Menge doppelte URLs verbergen. Wikipedia ist ja intern stark verlinkt und YaCy nimmt die Überprüfung auf dopplete URLs in der Liste erst vor, wenn die Seite zum Indexieren geladen werden soll und nicht, wenn die URLs in die Liste geschrieben werden. Ich denke, dafür gibt es auch einen Grund, über den uns Michael bestimmt aufklären kann.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: WikiMedia Dubletten erkennen und filtern

Beitragvon daburna » So Jan 27, 2008 9:11 am

Bei den Wikipedia Seiten werden mit "dynamische Seiten akzeptieren" auch alle unterschiedlichen Versionen gecrawlt. So ist das auf jeden Fall in meinem privaten Wiki. Daher mehr Links als erwartet.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: WikiMedia Dubletten erkennen und filtern

Beitragvon Huppi » So Jan 27, 2008 2:30 pm

Ja, da könnte man evtl. noch über einen zusätzlichen Filter nachdenken. Beim Crawlen von MediaWikis hatte ich auch schon diverse ältere Versionen mit dabei.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: WikiMedia Dubletten erkennen und filtern

Beitragvon miTreD » So Jan 27, 2008 3:21 pm

Es sieht so aus, als ob beim MediaWiki alles was nicht mit dem eigentlichen Artikel oder der Diskussion zu tun hat ein &action= in der URL enthält.
Beispiele:
Code: Alles auswählen
http://de.wikipedia.org/w/index.php?title=Hauptseite&action=edit
http://de.wikipedia.org/w/index.php?title=Hauptseite&action=history
http://yacy-websuche.de/wiki/index.php?title=De:Start&action=edit
http://yacy-websuche.de/wiki/index.php?title=De:Start&action=history
Demnach sollte sich doch mit der advanced Blacklist von lulabad ein passender Filter erstellen lassen.
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: WikiMedia Dubletten erkennen und filtern

Beitragvon Huppi » Di Jan 29, 2008 10:54 pm

Ich habe mir mal zwei Aspekte dazu näher angesehen:
1.) Wie viele MediaWiki Dubletten haben wir im Index
2.) Wie hält Google die Seiten aus dem eigenen Index heraus.

1.) Idealerweise in einem recht frischen Index, deshalb habe ich mal Sciencenet-Cluster des Forschungszentrums Karlsruhe gesucht. Unerwünschte Dubletten mit "actio=" habe ich dort nicht gefunden. Als liegt der Verdacht nahe, daß diese Index-Inhalte noch Altlasten aus sehr frühen Crawls sind.
2.) Da denkt man natürlich gleich an Robots.txt und Co. und ich glaube mich erinnern zu können, bei eigenen MediaWiki-Installationen auch Robots.txt adaptiert zu haben.
Folgendes deutet auch darauf hin:
There are 552 entries in the rejected-queue:
Initiator Executor URL Fail-Reason
fss_i_yacy4 fss_i_yacy4 http://nl.wiktionary.org/w/index.php?ti ... ction=edit denied by robots.txt
fss_i_yacy4 fss_i_yacy4 http://nl.wiktionary.org/w/index.php?ti ... ction=edit denied by robots.txt
...

In der Robots.txt konnte ich aber nichts passendes finden.
Weitere Rechersche bringt:
http://www.mediawiki.org/wiki/Robots.txt
Nice robot

In your robots.txt file, you would be wise to deny access to the script directory, hence diffs, old revisions, contribs lists, etc etc, which could severely raise the load on the server.

[edit] Using URL rewriting

If using a system like on Wikipedia where plain pages are arrived at via /wiki/Some_title and anything else via /w/index.php?title=Some_title&someoption=blah, it's easy:

User-agent: *
Disallow: /w/

Be careful, though! If you put this line by accident:

Disallow: /w

you'll block access to the /wiki directory, and search engines will drop your wiki!

[edit] Not using URL rewriting

If not using URL rewriting, this could be difficult to do very cleanly. Here we choose an aggressive example of keeping robots' noses out of non-core namespaces,

User-agent: *
Disallow: /index.php?diff=
Disallow: /index.php?oldid=
Disallow: /index.php?title=Help
Disallow: /index.php?title=Image
Disallow: /index.php?title=MediaWiki
Disallow: /index.php?title=Special:
Disallow: /index.php?title=Template
Disallow: /skins

(The lines without the colons at the end also zap the respective Talk pages. Note that non-English wikis may need to, in addition, add various translations of the above, in various coding representations...) We also tack on

Disallow: /*&

as some robots like Googlebot accept this wildcard extention to the robots.txt standard, which indeed stops most of what we don't want robots sifting through, just like the /w/ solution above.


Das ist dann aber zunächst mal Sache der Wiki-Anbieter. Interessanterweise: ohne daß ich eine Robots.txt für zwei von mir installierte MediaWikis erstellt habe, finde ich dennoch keine Dubletten der Art "action=" im Google-Index, also muß Google das irgendwie clever filtern.
Wg. 1 aber: filtert auch YaCy das schon clever?

Auch interessant: http://www.mediawiki.org/wiki/Extension:NoRobots

EDIT:
Bei aktuellen MediaWiki-Installation findet man im Quelltext der Edit-Seite:
<meta name="robots" content="noindex,nofollow" />

Auf der normalen Seite ist das nicht drauf, wohl aber auf der History-Seite. Damit hat sich die Vermutung von cleverem YaCy bestätigt, oder? Dubletten müßten dann Altlasten sein (s.1.)) aus Zeiten, als YaCy das noch nicht interpretiert hat. (Damit könnte ich jetzt alles oberhalb von EDIT wieder löschen ...)
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: WikiMedia Dubletten erkennen und filtern

Beitragvon miTreD » Mi Jan 30, 2008 9:18 am

Danke für den langen Artikel :-)
Huppi hat geschrieben:Dubletten müßten dann Altlasten sein (s.1.)) aus Zeiten, als YaCy das noch nicht interpretiert hat. (Damit könnte ich jetzt alles oberhalb von EDIT wieder löschen ...)
Ich glaube nicht, dass die Peers von liebel-lab alt genug dafür sind. Das ist ja echt schon richtig lange her.

@liebel-lab:
Hast Du in Deinen Queues Einträge, die auf das oben Beschriebene Muster mit dem &action= in der URL passen?
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast