Zeichenkette wird nicht gefunden

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Zeichenkette wird nicht gefunden

Beitragvon crawlnew » Mi Okt 08, 2008 9:15 am

Bin neu hier, schönes System. Wer liest (ct) hat mehr vom Leben!

Ich habe eine Testumgebung aufgesetzt und finde z.B. die Zeichenkette 4D nicht, auch bei der Zeichenkette "4D Client" steigt die Suche aus. (bei metager.de funktioniert das).
Wo muss ich, welche Einstellung ändern?

Test-Einstellungen:
Suchportal für eigene Internetseiten
Robinson Mode, Private Peer
Erfasst sind ca 9500 URLs und ca 206.000 Wörter indixiert.

Dank fürs auf die Sprünge helfen!
crawlnew
 
Beiträge: 14
Registriert: Mi Okt 08, 2008 8:55 am

Re: Zeichenkette wird nicht gefunden

Beitragvon bluumi » Mi Okt 08, 2008 9:24 am

Dein Robinson kommuniziert schonmal nicht mit der Peer Welt :)
Jedenfalls bekomme ich 29 Remote Treffer auf "4D Client" und etwas über 500 auf "4D"

btw: Im Suchfenster (Option - Quelle) steht aber schon auf "Global" oder?

[Edit] Minute später: Ups, jetzt sind es schon 2'800 Treffer auf "4D" :-D
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Zeichenkette wird nicht gefunden

Beitragvon crawlnew » Mi Okt 08, 2008 10:15 am

Hi, ich denke der Robot müsste einige tausend Seiten mit "4D" finden. Die Seiten sind alle indixiert... jedoch er findet nicht... In Quelle steht lokal, ich denke aber das ist OK, weil der Test im Robinson Modus läuft. Ich habe gehofft, dass beim Indizieren kurze Zeichenketten standardmäßig ignoriert werden und ich das durch eine Veränderung der Einstellung ändern kann.
crawlnew
 
Beiträge: 14
Registriert: Mi Okt 08, 2008 8:55 am

Re: Zeichenkette wird nicht gefunden

Beitragvon bluumi » Mi Okt 08, 2008 10:16 am

Ach so, versteh ich richtig, du hast bereits viele Seiten Indexiert, auf welchen "4D" auch vorkommen tut :-D
Na, dann weiss ich auch nicht was bei Dir schief lief.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Zeichenkette wird nicht gefunden

Beitragvon crawlnew » Mi Okt 08, 2008 10:23 am

So ist es, tut einige mehrere Male vorkommen.
crawlnew
 
Beiträge: 14
Registriert: Mi Okt 08, 2008 8:55 am

Re: Zeichenkette wird nicht gefunden

Beitragvon DanielR » Mi Okt 08, 2008 10:44 am

Eigentlich wird alles unter 3 Zeichen ignoriert (hab ich gehört ;)
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Zeichenkette wird nicht gefunden

Beitragvon crawlnew » Mi Okt 08, 2008 1:03 pm

ich hab mal auf die Schnelle Spiegel.de indiziert. Suche ich nach "George Bush" oder den Einzelwörtern gibt es ein Ergebnis. Suche ich nach "George W Bush" gibt es überhaupt kein Ergebnis.
Getestet habe ich mit einem Mac OS x 10.4 und Linux. Das Verhalten ist unter beiden System gleich.

Auch hier: Bei Metager.de geht alles.
crawlnew
 
Beiträge: 14
Registriert: Mi Okt 08, 2008 8:55 am

Re: Zeichenkette wird nicht gefunden

Beitragvon PCA42 » Mi Okt 08, 2008 2:54 pm

Ich hab da ne Vermutung: Wörter unter drei Zeicher werden nicht indiziert, wohl aber gesucht. Hab das gleich Problem wenn ich nach meiner WoW-Gilde suche. Da ist nämlich auch ein kurzes "of" drin. Ohne das "of" geht das sofort.

Das muss wohl bei der Suche der Suchbegriff entfernt werden.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Zeichenkette wird nicht gefunden

Beitragvon bluumi » Mi Okt 08, 2008 2:59 pm

Naja, mir scheint er ignoriert das W eben nicht.
ich bekomme 44'000 "George Bush" aber nur 1300 mit dem W(.)

World of Warcraft (2'300) vs. World of Warcraft (45'000) [WoW 234'000 :twisted: ]
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Zeichenkette wird nicht gefunden

Beitragvon Orbiter » Mi Okt 08, 2008 3:17 pm

ja da gibt es irgendwo eine Regel für Wörter die kürzer sind als 3 Buchstaben, aber wie oben dokumentiert ist das wohl nicht einheitlich. Oh je, hier muss auch mal was glatt gezogen werden (wann soll ich das nur alles machen?)
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Zeichenkette wird nicht gefunden

Beitragvon DanielR » Mi Okt 08, 2008 10:34 pm

Orbiter hat geschrieben:wann soll ich das nur alles machen?

Ich könnte da nächste Woche mal nach gucken. Allerdings muss ich mich da erstmal rein arbeiten. Du weist sicherlich wo du schauen musst :sad:
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Zeichenkette wird nicht gefunden

Beitragvon Orbiter » Mi Okt 08, 2008 10:36 pm

2 Stellen: in yacysearch.java muss es irgendwo so einen Aufruf 'cleanQuery' geben. Den kontrollieren, und ausserdem gibt es beim Condenser einen Iterator, der Wörter des Textes aufzählt, und dem man eine Mindestlänge als Parameter gibt.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Zeichenkette wird nicht gefunden

Beitragvon DanielR » Fr Okt 10, 2008 1:11 pm

PCA42 hat geschrieben:Ich hab da ne Vermutung: Wörter unter drei Zeicher werden nicht indiziert, wohl aber gesucht.

Genau das ist das Problem. Nur ist die Länge von 3 nicht fest. Im Code wird mal 2 und mal 3 verwendet. Theoretisch kann das beliebig sein.
Die Suche sucht nach allen Wörtern, was meiner Meinung nach korrekt ist. Es sollte da evtl. einen einheitlichen Wert je Peer geben, welcher beim Indizieren wie Suchen verwendet wird!?!
Oder einfach alles indizieren? War ja auch für die Spracherkennung schonmal erwähnt. Macht eine Begrenzung tatsächlich Sinn? Denn egal ob das Wort zwei Buchstaben oder 800 hat, es hat immer einen festen Hash ;)
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Zeichenkette wird nicht gefunden

Beitragvon Low012 » Fr Okt 10, 2008 1:37 pm

Bei vielen anderen Suchmaschinen kann man auch nach einzelnen Buchstaben suchen. Ob das sinnvoll ist oder nicht, darüber bin ich mir noch nicht ganz im Klaren.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Zeichenkette wird nicht gefunden

Beitragvon Orbiter » Fr Okt 10, 2008 1:45 pm

einzelne Buchstaben ist ja irrsinn.
Bei zwei Buchstaben bin ich mir nicht sicher, denn es gibt ganz sicher einige Abkürzungen nach den man suchen möchte und die zwei Buchstaben haben:
VW
WM
PS
US
..?

Vielleicht machen wir einfach eine 2-letter Whitelist und lassen ansonsten die Beschränkung auf drei Buchstaben Minimum
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Zeichenkette wird nicht gefunden

Beitragvon miTreD » Sa Okt 11, 2008 9:54 am

Das geht ja auch ein wenig in diese Richtung:
http://forum.yacy-websuche.de/viewtopic.php?f=5&t=1515#p10521
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: Zeichenkette wird nicht gefunden

Beitragvon DanielR » So Okt 12, 2008 2:13 pm

Low012 hat geschrieben:Bei vielen anderen Suchmaschinen kann man auch nach einzelnen Buchstaben suchen. Ob das sinnvoll ist oder nicht, darüber bin ich mir noch nicht ganz im Klaren.

Geht bei YaCy auch. Er sucht nicht nur nach Wörtern, sonder anscheinen auch nach Teilwörtern (unter INFO ist der Buchstabe innerhalb des Textes hervorgehoben)?! Keine Ahnung wie, aber es geht (zB. k liefert KDE)
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Zeichenkette wird nicht gefunden

Beitragvon crawlnew » So Okt 12, 2008 7:57 pm

Die Suche ist bei mir vollständig erfolglos, wenn sie ein kurze Zeichenkette enthält. Es wird bei "4D Client" oder auch "George W Bush" überhauptkein Ergebnis angezeigt! "Client" oder "George Bush" funktionieren natürlich.
crawlnew
 
Beiträge: 14
Registriert: Mi Okt 08, 2008 8:55 am

Re: Zeichenkette wird nicht gefunden

Beitragvon thq » Do Jan 08, 2009 3:53 pm

Wenn man nach Produkte sucht sind Wörter kleiner 3 nicht selten. Soviel ich weiß wurde die Beschränkung von Wörter < 3 auch mal entfernt, kann es sein das das wieder rückgängig gemacht worden ist ?

Wenn ja dann doch bitte nur Wörter < 2 und bestimmte "Wörter" blocken wie Mo, Di, Mi...

Kann man YaCy nicht beibringen ein Datum zu erkennen, so das YaCy z.B. aus "Verfasst: 12.10.2008 20:57" dann ein 12102008 102008 und 2008 macht, so könnte man schon gezielt nach ein Datum suchen und es werden nur noch 3 Wörter anstatt Verfasst 12 10 2008 20 und 57 gespeichert.
(das steht auch in der Wunschliste)
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Zeichenkette wird nicht gefunden

Beitragvon thq » Fr Jan 09, 2009 3:03 pm

Wie sieht es den jetzt aus, werden Wörter < 3 indexiert oder nicht. Und wenn nicht, wo bitte muss ich das ändern das es zumindest bei mir gemacht wird ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Zeichenkette wird nicht gefunden

Beitragvon Orbiter » Fr Jan 09, 2009 3:10 pm

plasmaCondenser, in der Variable wordminsize. Wird statisch auf 3 gesetzt. ich weiss das ist unschön. Die Suche hat zum Filtern bestimmt noch woanders eine Zahl.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Zeichenkette wird nicht gefunden

Beitragvon Lotus » Sa Jan 10, 2009 10:39 am

Orbiter hat geschrieben:Die Suche hat zum Filtern bestimmt noch woanders eine Zahl.

Ich glaube die Funktion cleanQuery macht das.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Zeichenkette wird nicht gefunden

Beitragvon thq » Sa Jan 10, 2009 12:28 pm

Ich habe bei mir jetzt wordminsize auf 2 gesetzt.

Code: Alles auswählen
Index: D:/eclipse.workspace/yacy-public/source/de/anomic/plasma/plasmaCondenser.java
===================================================================
--- D:/eclipse.workspace/yacy-public/source/de/anomic/plasma/plasmaCondenser.java   (revision 5464)
+++ D:/eclipse.workspace/yacy-public/source/de/anomic/plasma/plasmaCondenser.java   (working copy)
@@ -104,7 +104,7 @@
     public plasmaCondenser(final plasmaParserDocument document, final boolean indexText, final boolean indexMedia) throws UnsupportedEncodingException {
         // if addMedia == true, then all the media links are also parsed and added to the words
         // added media words are flagged with the appropriate media flag
-        this.wordminsize = 3;
+        this.wordminsize = 2;
         this.wordcut = 2;
         this.words = new TreeMap<String, indexWord>();
         this.RESULT_FLAGS = new kelondroBitfield(4);

Index: D:/eclipse.workspace/yacy-public/source/de/anomic/plasma/plasmaSearchQuery.java
===================================================================
--- D:/eclipse.workspace/yacy-public/source/de/anomic/plasma/plasmaSearchQuery.java   (revision 5464)
+++ D:/eclipse.workspace/yacy-public/source/de/anomic/plasma/plasmaSearchQuery.java   (working copy)
@@ -262,7 +264,7 @@
               while ((c = a[i].indexOf('-')) >= 0) {
                  s = a[i].substring(0, c);
                  l = s.length();
-               if(l > 2) query.add(s);
+               if(l > 1) query.add(s);
                  if(l > 0) fullquery.add(s);
                  a[i] = a[i].substring(c + 1);
               }
@@ -267,7 +269,7 @@
                  a[i] = a[i].substring(c + 1);
               }
               l = a[i].length();
-            if (l > 2) query.add(a[i]);
+            if (l > 1) query.add(a[i]);
               if (l > 0) fullquery.add(a[i]);
            }
         }
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Zeichenkette wird nicht gefunden

Beitragvon tara » So Jan 11, 2009 3:25 pm

Orbiter hat geschrieben:einzelne Buchstaben ist ja irrsinn.

Auf die lateinische Buchstaben mag das zutreffend sein. Beispielsweise im chinesischen sieht das doch wieder anders aus, da viele Wörter aus zwei Zeichen bestehen. 月球 der Mond, 地球 der Planet, 洲 der Kontinent usw. Wäre nicht gut, wenn diese ausgeschlossen werden.
tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron