Verständnisfrage - IndexControlURLs_p vs. lokale suche

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Verständnisfrage - IndexControlURLs_p vs. lokale suche

Beitragvon bluumi » Mi Sep 09, 2009 12:07 pm

Gestern habe ich die Seite "http://www.cravegames.com/Games/GOTJ/" indexiert und gecrawlt, jedenfalls zeigt mir mein Peer unter /IndexControlURLs_p.html diese URL an, klicke ich auf "Show Content" so sehe ich unter "geparster Text" unter vielem anderen
[George of the Jungle. Grab a vine and swing into a grand adventure]
[and copyrighted by Ward Productions, Inc. and Bullwinkle Studios. Used by permission] bzw. unter "geparste Zeichen/Wörter" tauchen die Wörter auf, welche ich "unten" suche.

Mache ich eine lokale Suche nach etwas von diesem geparsten Inhalt, so finde ich zwar einiges, aber keiner der Einträge ist obige URL. Es verwirrt mich etwas, wenn ich das geparste nicht finde. Sowohl auf "George of the Jungle" wie auch auf "Bullwinkle Studios"

Erst dachte ich, dass es einige Stunden benötigt, dass es in meiner Suche auftauchen kann, aber inzwischen sind Stunden vergangen. :)
PS: habe es auch global versucht, auch da kam noch keiner auf die idee diese Seite "feil zu bieten" :)

[http://212.117.110.162:1494/index.html]
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Verständnisfrage - IndexControlURLs_p vs. lokale suche

Beitragvon Orbiter » Mi Sep 09, 2009 12:13 pm

hast du mal IndexControlRWIs_p probiert? Das ist der 'native' Zugang zum Index. Die Suche über das Front-End macht noch ein wenig mehr, da können Filter, Constraints und der Snippet-Fetch verhindern dass die Seite auftaucht.

Auf der Seite kannst du natürlich nur nach einem Wort suchen, nicht nach mehreren.

Wenn das funktioniert, müssten wir gucken welche der genannten Ursachen das Ergebnis zurückhält. Oder es gibt ein Problem mit einem Join.

Wenn das gar nichts bringt, ist das Wort vielleicht nicht mehr im Index. Wenn das der Fall ist, kann das entweder duch eine DHT-Versendung verloren gegangen sein, oder durch eine Cleaning-Regel nach einer Suche, dort wird beispielsweise nach einem Fehlschlagen eines Snippet-Fetches der Index des Wortes an der angeblichen Funstelle gelöscht.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Verständnisfrage - IndexControlURLs_p vs. lokale suche

Beitragvon bluumi » Mi Sep 09, 2009 7:56 pm

Ok, also in IndexControlRWIs_p finde ich das Wort "Bullwinkle", davon gibts zum glück nicht soviele Treffer :)
In der Suche isses nicht, egal mit welcher Maske ich suche. An der Blackliste liegt es nicht, die hab ich jetzt kurz deaktiviert :)
Es ist wie gesagt mehr dass es mich verwirrt, als dass mir "genau diese Seite" wichtig währe. Hätte nur nicht viel Lust, wenn mir von den Crawls die ich mache viel für die Tonne macht. Kann ja noch mit ein paar anderen fertigen Seiten ausprobieren ob da Wörter "verschwinden"
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Verständnisfrage - IndexControlURLs_p vs. lokale suche

Beitragvon Orbiter » Mi Sep 09, 2009 8:12 pm

das siehst du schon richtig. Jetzt haben wir auch schon ein wenig das Problem eingegrenzt, denn das Wort ist nicht aus dem Index weg und wird auch gefunden.

Du hast keine Kombinationssuche (mehrere Wörter) gemacht?

Kannst du sicher stellen, dass alle URLs die mit dem Suchwort im Index sind auch da sind? Also bei IndexControlRWIs_p in der Liste gucken, da ist ja die URL und dann die Seiten aufrufen und schauen ob sie noch da sind. Das wäre der natürlichste Fall das die Seiten raus fliegen.

Der nächste Test: schauen ob das Wort auch noch auf der Seite da ist.

dann: eine Suche machen, ohne Snippet-Fetch. Die URL habe ich schon:
http://212.117.110.162:1494/yacysearch. ... Bullwinkle

geht aber nicht, weil du Suche für nicht-eingeloggte ausgeschaltet hast.

http://212.117.110.162:1494/yacy/search ... jtwHrQTTHq
verrät dann, dass dein Peer Suchergebnisse zu dem Wort auch in remote search ausliefert.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Verständnisfrage - IndexControlURLs_p vs. lokale suche

Beitragvon bluumi » Mi Sep 09, 2009 9:33 pm

Orbiter hat geschrieben:Du hast keine Kombinationssuche (mehrere Wörter) gemacht?

Bei den ersten Versuchen habe ich es mit dem Satz gemacht, dann mit 2-3 Wörtern und am ende nur noch mit dem einen Wort. Ergebnis jeweils dass erwähnte Domain nicht vorkam.

Orbiter hat geschrieben:geht aber nicht, weil du Suche für nicht-eingeloggte ausgeschaltet hast.

lach, das war nicht meine Absicht, drum hat ich ja die URl gepostet :) , ein klick und das war passiert. Ist wieder für alle freigeschaltet.

Orbiter hat geschrieben:Also bei IndexControlRWIs_p in der Liste gucken, da ist ja die URL und dann die Seiten aufrufen und schauen ob sie noch da sind. Das wäre der natürlichste Fall das die Seiten raus fliegen.
Der nächste Test: schauen ob das Wort auch noch auf der Seite da ist.


Wow, es ist endlich da, jetzt bin ich verwirrst. War ich etwa zu doof auf Seite 8 zu scrollen? aber gestern hatte ich auch nur 50, heute 560 lokale resultate :-0. und jetzt ist es sogar unter den top 5 wenn ich "Bullwinkle Studios NEAR" suche. Und auch auf site reagiert es nun....
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Verständnisfrage - IndexControlURLs_p vs. lokale suche

Beitragvon Orbiter » Mi Sep 09, 2009 10:32 pm

na also nichts verloren 8-)
Du hast aber auch einen fetten Index. Mit 124 Millionen URLs der absolute Spitzenreiter in diesem Peer. Das ist 24% über Google-Startup-Größe.
Vielleicht bekommst du da timing-Effekte, die zu dem Verschwinden geführt haben.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Verständnisfrage - IndexControlURLs_p vs. lokale suche

Beitragvon dulcedo » Do Sep 10, 2009 8:10 am

Den Effekt kann ich bei 90mio URLs bestätigen, ich vermute auch eine Timingsache. Die sich jetzt aber verbessert hat siehe Beitrag von gestern.
Stört mich persönlich nicht weil ich keinen Google-Ersatz möchte sondern eine Alternative, solche "kreativen" Suchen die mit Ergebnissen überraschen finde ich angenehm; Solange die Daten nicht verloren gehn und das tun sie ja nicht.
Bei Datenbeständen wo das nicht passieren darf hatte ich noch nie Probleme etwas auch zu finden, das sind dann Indizes bis 20Millionen und eher das was man als Archiv für wichtige Suchen bezeichnen könnte.

Für die Wunschliste: Dieses Timing für Tuning zugänglich machen, oder erklären wo man es beeinflusst.

Orbiter hat geschrieben:Das ist 24% über Google-Startup-Größe.

Solche Vergleiche sind gut um ab und zu ins Bewusstsein zu rufen mit welchen Datenmengen wir umgehen. Genauso wie 500ppm, das kann man mit 10GB/Tag (2 HD-Filme) vergleichen die man ansieht oder herunterlädt, oder eben auch 500 gelesene oder besuchte Webseiten pro Minute.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Verständnisfrage - IndexControlURLs_p vs. lokale suche

Beitragvon bluumi » Do Sep 10, 2009 11:58 am

Orbiter hat geschrieben:Du hast aber auch einen fetten Index. Mit 124 Millionen URLs der absolute Spitzenreiter in diesem Peer.

Bin ein statistik junkie :) .. für diese yacy sache hab ich eigens zwei Kisten beansprucht, diese da, läuft wirklich rein nur für Yacy.
Bei der anderen, dem Server wo noch was anderes läuft, habe ich aber leider wirklich bald(er) das Limit erreicht, dort geht mit bei 5.5Gbyte zugewiesenem RAM dieses aus, bzw die OOMs häufen sich nun übermässig. Ich schätze wenn ich ihm das Crawlen verbiete läuft der dann noch ein paar Wochen / Monate ohne murren.

Orbiter hat geschrieben:Das ist 24% über Google-Startup-Größe.

Solche Vergleiche sind gut um ab und zu ins Bewusstsein zu rufen mit welchen Datenmengen wir umgehen. Genauso wie 500ppm, das kann man mit 10GB/Tag (2 HD-Filme) vergleichen die man ansieht oder herunterlädt, oder eben auch 500 gelesene oder besuchte Webseiten pro Minute.[/quote]
Ja, ist schlicht "unvorstellbar" was für eine riesen Datenbasis diese Ding inzwischen hat und es läuft trotzdem noch immer. Alleine dass es möglich war den Hdd Zugriff dermassen zu optimieren, grenzt für mich an :shock:
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron