Problem bei Titel-Ausgabe & Anpassung der Suche

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Problem bei Titel-Ausgabe & Anpassung der Suche

Beitragvon bs78 » Mi Mai 19, 2010 9:19 am

Hallo!

Bisher funktioniert YaCy nach Startschwierigkeiten gut.
Leider habe ich noch zwei Dinge, die ich gern verbessern / einstellen möchte:

=> bei einigen Dokumenten, die über die Suche gefunden werden, wird der Titel nicht korrekt angegeben
* "INFO Title \* MERGEFORMAT Anwendungslandschaft ..." statt "Anwendungslandschaft..." [doc-Format]
* "DOCPROPERTY "Company" \* MERGEFORMAT ..." statt "Programmablauf" [doc-Format]

=> kann ich außerdem noch erreichen, dass bei der Suche Pfadnamen bzw. Suchtreffer in der URL-Bezeichnung ausgeschlossen werden?

Würde mich sehr über Ratschläge freuen!!

VG Ralf
bs78
 
Beiträge: 9
Registriert: Mo Mai 10, 2010 10:55 am

Re: Problem bei Titel-Ausgabe & Anpassung der Suche

Beitragvon Orbiter » Mi Mai 19, 2010 9:39 am

hallo Ralf,

doc-Format Parser: interessanter Hinweis, ist das doc-Dokument öffentlich zugänglich oder kannst du davon eine gekürzt (bis auf Titel geleerte) Testversion bereit stellen? Dann kann ich im Parser gucken wie es dazu kommt.

Pfadnamen in Suchtreffer: diese Treffer sind hoch bewertet im Ranking. Du kannst diese Bewertung ganz leicht herunterstellen:
Ranking Config ->
* "Appearance In URL" auf 0 stellen (Button ganz links)

Die Titel-Treffer ganz ausschliessen kann man (noch) nicht. Muss mal überlegen wie das gehen könnte.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Problem bei Titel-Ausgabe & Anpassung der Suche

Beitragvon bs78 » Mi Mai 19, 2010 10:24 am

Hallo Orbiter!

Dank für die schnelle Antwort! Die Ranking-Einstellung klappt prima!

Habe anbei das Beispieldokument für:
"INFO Title \* MERGEFORMAT Anwendungslandschaft ..." statt "Anwendungslandschaft..." [doc-Format]

angehangen... (Firmeninhalte habe ich entfernt - die Titelbezeichnung wurde nur unwesentlich verändert - ist analog dem Original!)

Würde mich sehr freuen, wenn es hier eine Verbesserungsmöglichkeit gibt!

VG Ralf



#######################
EDIT: Sorry, der Anhang ist nicht zum Nachvollziehen geeignet. Ich muss ein anderes Beispiel erstellen!
bs78
 
Beiträge: 9
Registriert: Mo Mai 10, 2010 10:55 am

Re: Problem bei Titel-Ausgabe & Anpassung der Suche

Beitragvon bs78 » Fr Mai 21, 2010 1:44 pm

Hallo!

Entschuldigung, dass ich erst jetzt schreibe - doch anbei ist endlich ein Beispiel-Dokument, welches z.B. Fehler beim Parsen erzeugt!

Gebe ich in der YaCy-Suche: "Sonderkonditionen filetype:doc" ein... erhalte ich das Ergebnis:
"DOCPROPERTY "Company" \* MERGEFORMAT FIRM name GmbH SUBJECT \* MERGEFORMAT"

Würde mich sehr über Hinweise freuen!!!
Dateianhänge
pic4355_2_0087.zip
gepackte Doc-Datei zum Parser-Test
(6.82 KiB) 24-mal heruntergeladen
bs78
 
Beiträge: 9
Registriert: Mo Mai 10, 2010 10:55 am

Re: Problem bei Titel-Ausgabe & Anpassung der Suche

Beitragvon Orbiter » Fr Mai 21, 2010 2:49 pm

ok danke!
Kann bis nach dem WE dauern... ich gucke mir das an!
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Problem bei Titel-Ausgabe & Anpassung der Suche

Beitragvon bs78 » Fr Mai 21, 2010 2:53 pm

Das ist sehr nett!! Vielen Dank!! Schöne Feiertage!!
bs78
 
Beiträge: 9
Registriert: Mo Mai 10, 2010 10:55 am

Re: Problem bei Titel-Ausgabe & Anpassung der Suche

Beitragvon bs78 » Mi Jun 02, 2010 2:18 pm

Hi! Gibt es hier evtl. noch Ideen??

Würde mich sehr freuen - Danke.

Grüße Ralf
bs78
 
Beiträge: 9
Registriert: Mo Mai 10, 2010 10:55 am

Re: Problem bei Titel-Ausgabe & Anpassung der Suche

Beitragvon Orbiter » Mo Jun 07, 2010 4:38 pm

Hallo Ralf,
leider war jetzt in den letzten 2 Wochen doch keine Zeit mehr dafür, Messevorbereitungen und Kurzurlaube haben mir dazu keine Zeit gelassen. Ich habs aber weiter auf dem Radar. Bist du vielleicht diese Woche beim Linuxtag in Berlin?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Problem bei Titel-Ausgabe & Anpassung der Suche

Beitragvon Copro » Fr Jun 11, 2010 6:52 pm

Die geparsten Daten aus dem Beispieldokument kommen aus dem Textfeld "Company" in den Benutzerdefinierten Einstellungen des Word Dokuments das den Wert "FIRM name GmbH" enthält.
Ich habe die Datei mal in OpenOffice geöffnet und zumindest der angezeigte Wert vor dem eigentlich Thema stimmt überein.

Bild

Diese Daten werden als Felder / Feldbefehle im Dokument angezeigt und verwendet was den Parser in der aktuellen Version durcheinanderbringt bzw. ihn die Feldnamen ebenfalls anzeigen läßt.
Es gibt dazu einen Bug auf der Bugzilla Seite des Apache POI Projekts der passen würde:
https://issues.apache.org/bugzilla/show_bug.cgi?id=44431
Der Titel sollte aber trotzdem richtig extrahiert werden können - denn dieser Bug ist erst sichtbar nachdem das Dokument über die POI API beschrieben wurde.

Mit einer weiteren Datei und ähnlichen Benutzerdefinierten Einstellungen im Word 97 Format gespeichert ohne diese im Dokument in Felderm anzuzeigen sehe ich den Titel normal. Ebenfalls kein Problem beim Titel wenn ich die Datei mit eigenen Benutzerdefinierten Einstellungen direkt im OpenOffice Format abspeichere.
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron