Auto-Dom-Filter verschwunden ab 0.98/7224

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Auto-Dom-Filter verschwunden ab 0.98/7224

Beitragvon botec » Sa Okt 09, 2010 8:58 pm

Hallo,

ich weiss nicht genau ab wann, aber in der Verison 0.98/7224 gibt es unter
Index Creation/Expert Crawl Start
keine Auto-Dom-Filter mehr?

Ist das gewollt und wurde die Funktion wo anders implementiert?

Bitte um Hilfe!

Ciao, Botec
botec
 
Beiträge: 32
Registriert: Fr Jun 13, 2008 9:20 pm

Re: Auto-Dom-Filter verschwunden ab 0.98/7224

Beitragvon Copro » So Okt 10, 2010 11:15 am

Der Auto-Dom-Filter wurde in SVN 7213 ersetzt und nun wird eine Link Liste mit den jeweiligen Start URLs angezeigt die live von der Start URL geladen wird. Das wird sowohl in der neuen Site Crawl wie auch auf der Crawl Start Experten Seite angezeigt und kann als Crawl Ausgangspunkt ausgewählt werden.

Der ganze Changelog Eintrag von orbiter zu SVN 7213:
replaced auto-dom filter with easy-to-understand Site Link-List crawler option
- nobody understand the auto-dom filter without a lenghtly introduction about the function of a crawler
- nobody ever used the auto-dom filter other than with a crawl depth of 1
- the auto-dom filter was buggy since the filter did not survive a restart and then a search index contained waste
- the function of the auto-dom filter was in fact to just load a link list from the given start url and then start separate crawls for all these urls restricted by their domain
- the new Site Link-List option shows the target urls in real-time during input of the start url (like the robots check) and gives a transparent feed-back what it does before it can be used
- the new option also fits into the easy site-crawl start menu


Beispiel:
Bild
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am

Re: Auto-Dom-Filter verschwunden ab 0.98/7224

Beitragvon botec » So Okt 10, 2010 1:27 pm

Hallo Copro,

danke für dir rasche Antwort, das Problem ist nur, das dies bei einem Crawl From Url zutrifft, leider aber nicht bei einem crawl From File...

Oder ich bin zu doof das zu raffen?!?


Bitte um Hilfe!

Danke & Ciao, botec
botec
 
Beiträge: 32
Registriert: Fr Jun 13, 2008 9:20 pm

Re: Auto-Dom-Filter verschwunden ab 0.98/7224

Beitragvon Copro » So Okt 10, 2010 6:39 pm

Ja - bei einem Crawl from File wird nur die Crawl Tiefe (Crawling Depth:) berücksichtigt, da ja hier keine Domäne zugewiesen werden kann.
Zum Testen habe ich eine HTML Datei mit 3 Links im Body genommen:
Code: Alles auswählen
file://links.html     1     .*


Als Workaround könntest Du die Datei ins Repository kopieren und dann wiederum mit der neuen Option Link Liste indexieren - was folgende Ergebnisse lieferte:
Code: Alles auswählen
http://localhost:8080/repository/links.html     99     http://www.domain1.de.*|http://www.domain2.de.*|http://www.domain3.de.*
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron