neuer craewler -> MegaLob :-)

Ereignisse, Vorschläge und Aktionen

neuer craewler -> MegaLob :-)

Beitragvon liebel-lab » Do Jan 08, 2009 3:14 pm

Michael hat gerade im sciencenet auf v:5439 umgestellt...ich hab noch nicht nachgelesen abe rich sehe dass der crawler jetzt richtig zackig laeuft und scheinbar auch clever die domains angeht...700ppm im schnitt ...sehr sehr schoen....:-) Grosses Lob und Danke ...sehr sehr nützlich
interessante Beobachtung: auf dem sciencenet-KIT peer (also jener welcher das KIT indiziert) sind "plötzlich" ~30.000 Seiten mehr aufgetaucht.
noch interessanter: es ist keinem aufgefallen, das was fehlt :o

Gibt es noch interesse bei Freeworld anfragen automatisch auch das sciencenet mit zu "erkunden" ..."Bruecke" etc? wir werden uns mit sicherheit die naechten jahre um die pflege /erweiterung alle "wissenschaftrelevanten seiten (mit yacy) kümmern....wäre doch nett das auch in freeworld zu integrieren...irgendwie...
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: neuer craewler -> MegaLob :-)

Beitragvon Huppi » Do Jan 08, 2009 5:45 pm

Ja, so eine Brücke wäre genial. Auch um evtl. weitere entstehende Subnetze integrieren zu können.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: neuer craewler -> MegaLob :-)

Beitragvon ribbon » Do Jan 08, 2009 6:55 pm

gibt ja 2 möglichkeiten, entweder die datenbank manuell sharen, oder EIN (oder jeder) yacy node kann zu mehreren DHTs verbinden, sprich, bei einem DHT "DHT-IN" traffic unterbinden., bzw umgekehrt, in ein DHT netzwerk nur traffic out senden,
Die Urls also verteilen, aber keine URLs oder Crawls von anderen akzeptieren, aber queries.
Da yacy bislang nur seinesgleichen erkennt, müsste man die netze identifizieren, sprich, wenn jemand im Robinson/Portal+Robinson Modus ist, obige Dinge zulassen: "Queries" und "DHT out" zu Freeworld.
Kann man die yacy nodes in freeworld kennzeichnen, so dass jeder Robinson mit diesen immer verbunden ist, aber zu Freeworld nodes keine Remote-Crawls und kein DHT-IN erlaubt ist?
Vielleicht kann man beides auch erlauben, aber dann in einem seperaten Pfad ablegen? Das wäre doch noch das beste, dann kann alles was von freeworld kommt, in einem Pfad liegen, dann man regelmässig löschen/verkleinern kann...

Remotecrawls und DHT in muss dann ja nur in einem physisch getrennten Pfad sein. Was man nicht gelöst hat, ist dass dann der Robinson-Suchende auch Ergebnisse aus Freeworld hat, was ich nicht schlimm finde, wenn es eine Option gäbe, bewerte localhost Ergebnisse höher. Wenn man dann den zweiten Free-World-Datenbankpfad regelmässig löscht, dann sind die zusätzlichen Ergebnisse auch gering.

oder muss der Robinson Arier sein?
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: neuer craewler -> MegaLob :-)

Beitragvon liebel-lab » Fr Jan 09, 2009 8:36 am

Zum Thema "Bruecke" ...
Bjoern war so nett und hat auf http://harvester42.fzk.de
fuer TABs gesorgt.(wir träumen ja von einem "Apfelmaennchen-Design" :-)
Unter "General" wird "freeworld" durcsucht. unter "Science" eben sciencenet ...
naja immerhin muss Michael nicht mehr soviel scrollen ;-) ...
(auch ganz nett zum vergleichen der SuMas . Wir pflegen die Tabs (derzeit 36 search engines).
Wer noch eine wichtige kennt, bitte bscheid geben. (derzeit haben wir keine "ger" section daher kein metager :-(...kommt evtl noch....
(und jetzt mueste man diesen post verschieben können)
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: neuer craewler -> MegaLob :-)

Beitragvon ribbon » Sa Jan 10, 2009 11:28 am

Das KIT funkioniert ja gar nicht..
http://sciencenet.fzk.de/
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: neuer craewler -> MegaLob :-)

Beitragvon dulcedo » Sa Jan 10, 2009 11:41 am

Irgendwas ist da durcheinender geraten, ich kämpfe auch mit 2 peers gerade.

Welches ist denn nun gerade eine stabile Version?
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: neuer craewler -> MegaLob :-)

Beitragvon bluumi » Sa Jan 10, 2009 3:16 pm

Seit 0.618/05464 bin ich wieder zufrieden :-D
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: neuer craewler -> MegaLob :-)

Beitragvon liebel-lab » Sa Jan 10, 2009 3:52 pm

ribbon hat geschrieben:Das KIT funkioniert ja gar nicht..
http://sciencenet.fzk.de/


...yepp auch gerade bemerkt....der 030er Rechner (aka "sciencenet.fzk.de") hatte eine kompletten MB ausfall)...wurde gestern gewechselt...
logischerweise hat sich damit die MAc adresse verändert und die wurde wohl noch nicht eingetragen...na prima...

warum faellt von 90 rechnern eigentlich genau die No: 30 aus? ...
proof that murphy really exists...
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: neuer craewler -> MegaLob :-)

Beitragvon ribbon » Sa Jan 10, 2009 3:58 pm

cool ist ja, dass man sich die ergebnisse auch als RSS laden kann, aber dann sind es nur 10.
Zuletzt geändert von ribbon am So Jan 11, 2009 9:35 am, insgesamt 1-mal geändert.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: neuer craewler -> MegaLob :-)

Beitragvon Orbiter » Sa Jan 10, 2009 5:23 pm

das ist auch so ein DoS Schutz. Wenn du einen Account hast, und den request mit einer autentifikation abschickst, funktioniert auch der Count. Ohne account gibts nur 10.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: neuer craewler -> MegaLob :-)

Beitragvon liebel-lab » Sa Jan 10, 2009 5:46 pm

@ribbon

brauchst du mehr als 10 ? was willst du machen? ...einen sciencenetrechner kaputt-testen? ok bin dabei :-)
@orbiter: habe ich die moeglichkeit EINEN rechner im sciencenet fuer solche test frei zu geben (sagen wir 250) ohne accounts? macht das sinn?
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: neuer craewler -> MegaLob :-)

Beitragvon ribbon » So Jan 11, 2009 9:36 am

nö, hatte nur rss geklickt und fragte mich, wie man sich das 11. Ergebnis anschauen kann und dachte es wäre ein bug.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron