Suchergebnisse als Ausgangsbasis für den Crawler

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon PCA42 » Sa Feb 28, 2009 7:35 pm

Ich weiß nicht, wie ihr eure Yacy eingerichtet habt. Aber ich benutzte den Proxy nicht, das Yacy bei mir auf einem extra Rootserver liegt.

Und da kommt dann die Idee:
Yacy crawlt ja alle als Suchergebnis gefundenen Seite erneut und frischt so den Index auf (Crawl-Tiefe 0). Aber das kann ma ja noch ein wenig sinnvoller gestalten: warum werden die Ergebnis-Seiten nicht mit einer Tiefe von 1 gecrawlt? So wird der Index erweitert und gleichzeitig kommen noch Seiten hinzu, die ja bereits in der Nähe möglicher Suchergebnisse gelegen haben. So wird vielleicht bei der nächsten Suche dann der 100%-Treffer ausgeliefert ;)
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon Orbiter » Sa Feb 28, 2009 11:57 pm

das ist kein Problem:
Crawl Profile Editor -> Profile von snippetGlobalText bearbeiten -> crawl-tiefe auf 1 stellen.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon PCA42 » So Mär 01, 2009 7:50 am

Super, das das schon möglich ist.
Beim Speichern der neuen Werte passiert dann leider das:
Code: Alles auswählen
E 2009/03/01 07:49:13 FILEHANDLER INTERNAL ERROR: java.lang.reflect.InvocationTargetException:null target exception at /home/yacy/yacy/htroot/CrawlProfileEditor_p.class: java.lang.NullPointerException:null
java.lang.reflect.InvocationTargetException
   at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
   at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
   at java.lang.reflect.Method.invoke(Method.java:597)
   at de.anomic.http.httpdFileHandler.invokeServlet(httpdFileHandler.java:1171)
   at de.anomic.http.httpdFileHandler.doResponse(httpdFileHandler.java:750)
   at de.anomic.http.httpdFileHandler.doPost(httpdFileHandler.java:247)
   at de.anomic.http.httpd.POST(httpd.java:629)
   at sun.reflect.GeneratedMethodAccessor4.invoke(Unknown Source)
   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
   at java.lang.reflect.Method.invoke(Method.java:597)
   at de.anomic.server.serverCore$Session.listen(serverCore.java:739)
   at de.anomic.server.serverCore$Session.run(serverCore.java:620)
Caused by: java.lang.NullPointerException
   at CrawlProfileEditor_p.respond(CrawlProfileEditor_p.java:141)
   ... 13 more
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon lulabad » So Mär 01, 2009 7:53 am

Kann ich nicht nachvollziehen. Bei mir funktioniert es. Welche Version hast du?
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon PCA42 » So Mär 01, 2009 8:14 am

SVN5652. Aber ich mach dann eh gleich mal ein Update und setzt mal die Profile zurück (löschen). Mal sehen, was dann passiert.

Edit: Leider wird der "snippetGlobalText" nicht wieder erstellt. Bisher sind nur "snippetGlobalMedia" u. "snippetLocalMedia" vorhanden.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon thq » So Mär 01, 2009 10:23 am

YaCy beenden und neustarten müsste helfen.

Orbiter: kannst du das bei dir mal zurücksetzen und dir dann die Profile angucken. Mir kommt das so vor das die Checkboxen für Lokal und Global genau verkehrt herum ausgewählt sind.

Wenn nicht kann du mal kurz erklären wo Lokal und Global benutzt wird ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon Orbiter » So Mär 01, 2009 10:52 am

local bezieht sich auf die Ergebnisse die aus dem eigenen Index kommen, und global auf die, die von anderen Peers kommen.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon thq » So Mär 01, 2009 12:40 pm

Nachdem ich die Profile gelöscht habe, habe ich ein "Recrawl If Older" von 1233309320531. Das kann ja nicht richtig sein. Es dürfte auch lesbarer werden, vielleicht noch eine Auswahlliste für: Monat(e), Tage, Stunden.
Zuletzt geändert von thq am So Mär 01, 2009 1:18 pm, insgesamt 1-mal geändert.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon PCA42 » So Mär 01, 2009 12:42 pm

thq hat geschrieben:YaCy beenden und neustarten müsste helfen.

Das hat es gebracht. Bin da immer etwas zurückhaltend mit, zwei Neustarts nacheinander zu machen. Das dauert bei mir immer ca. 15 Minuten für den Start. Ist bloss komisch, dass ich Yacy 2x starten muss, nachdem ich die Datenbank entfernt hab, bis alles wieder normal ist.

Das Ziel, was ich erreichen wollte, nämlich durch Suchanfragen den Index gezielt zu erweitern, hat auch funktioniert. Bringt gut URLs zum Crawlen, wenn man jetzt mit Yacy sucht. Und vor allem crawl ich jetzt nich sinnlos irgendwas, sondern Nachbarseiten von Suchergebnissen....
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon thq » So Mär 01, 2009 12:51 pm

Ich sehe das etwas anders. Da die Ergebnisse nicht immer passen, finde ich es besser das die Treffer die ich dann anklicke von Proxy erfasst werden, das ist noch genauer. Setzt aber voraus das man den YaCy-Proxy auch benutzt.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon Lotus » So Mär 01, 2009 12:53 pm

thq hat geschrieben:Nachdem ich die Profile gelöscht habe, habe ich ein "Recrawl If Older" von 1233309320531. Das kann ja nicht richtig sein. Es dürfte auch lesbarer werden, vielleicht noch eine Auswahlliste für: Monat(e), Tage, Stunden.

Doch. Das wird jeweils im Cleanup Thread aktualisiert.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon thq » So Mär 01, 2009 1:19 pm

Was ich nicht verstehe ist warum beim snippetLocalText/Media, Index Text, Index Media, Store in HTCache und Store in TXCache aus sind. Viele Daten kommen ja auch über DHT rein und da kann es nicht schaden die Daten neu zu laden.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon Orbiter » So Mär 01, 2009 8:00 pm

hm, das ist wohl teilweise richtig. Als ich die Einstellung erdacht habe, habe ich wohl nicht an DHT gedacht. Vielleicht muss man hier eine Option bauen, das man beim eingeschaltetem Index Receive dann auch das Indexing für lokal aktiviert. Wärs so aus deiner Sicht richtig?
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Suchergebnisse als Ausgangsbasis für den Crawler

Beitragvon thq » So Mär 01, 2009 8:25 pm

Ja, ich würde es aber einfach nur aktivieren, die URLs wird ja sowieso nur 1x in Monat neu geladen.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron