Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon Crystalgazer » Sa Sep 16, 2017 8:16 am

Hi,

wahrscheinlich sehe ich den Wald vor lauter Bäumen nicht. :shock:

Ich würde gerne einen Crawl starten der möglichst das ganze Internet durchsucht und von jedem gefundenen Host nur exakt eine Seite indexiert, nämlich die Top-Url.
Es soll also so eine Art "WebVerzeichnis" entstehen.

Hat jemand eine Idee wie man so etwas in Yacy realisieren kann?

Gruß Alex :roll:
Crystalgazer
 
Beiträge: 29
Registriert: Mi Aug 12, 2015 8:38 pm

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon TmoWizard » Sa Sep 16, 2017 11:57 am

Mahlzeit... oder so!

Crystalgazer hat geschrieben:Ich würde gerne einen Crawl starten der möglichst das ganze Internet durchsucht und von jedem gefundenen Host nur exakt eine Seite indexiert, nämlich die Top-Url.
Es soll also so eine Art "WebVerzeichnis" entstehen.


Öhm... Und wie viele Rechenzentren hat Du hierfür beschlagnahmt?
TmoWizard
 
Beiträge: 138
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon Crystalgazer » Sa Sep 16, 2017 2:51 pm

Hallo Mike,

Öhm... Und wie viele Rechenzentren hat Du hierfür beschlagnahmt?


soviele Rechenzentren braucht es dafür nicht.

1.Ich bin erstmal gar nicht an "Deep-Web" Inhalten interessiert.
Das reduziert schon einmal die Datenmenge erheblich

2."Commoncrawl" meldet für August 2017 folgende Daten
It contains 3.28 billion+ web pages and over 280 TiB of uncompressed content.

Das ist zwar viel, aber nicht unfaßbar viel.

3. Das sowas nicht an einem Nachmittag gecrawlt werden kann ist mir auch klar.

Also zurück zur Frage. Wie muß ich einen Crawler einstellen der möglichst alles indiziert (Hops 0) bis
die Platte platzt?

Gruß Alex
Crystalgazer
 
Beiträge: 29
Registriert: Mi Aug 12, 2015 8:38 pm

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon Crystalgazer » Sa Sep 16, 2017 5:21 pm

Hi zusammen,

hat sich erledigt. :mrgreen:

Gruß Alex
Crystalgazer
 
Beiträge: 29
Registriert: Mi Aug 12, 2015 8:38 pm

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon TmoWizard » Sa Sep 16, 2017 7:37 pm

Hallo Alex!

Crystalgazer hat geschrieben:
2."Commoncrawl" meldet für August 2017 folgende Daten
It contains 3.28 billion+ web pages and over 280 TiB of uncompressed content.

Das ist zwar viel, aber nicht unfaßbar viel.


Umgerechnet auf deutsch also 3,28 Milliarden Seiten, das dürfte so ungefähr 1% des WWW darstellen, wenn überhaupt! Also nochmal meine Frage:

Wie viele Rechenzentren hast Du für dein Vorhaben beschlagnahmt?
TmoWizard
 
Beiträge: 138
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon Crystalgazer » So Sep 17, 2017 6:05 am

Hallo Mike,

was mich immer wieder wundert ist die Unfähigkeit von Technikern auf eine einfache Frage einfach nur mal eine Antwort zu geben.
Stattdessen wird eine Idee als Ganzes sofort in Frage gestellt und die Unmöglichkeit der Realisierung demonstriert.

Schau mal Mike, vor 25 Jahren habe ich mir mal eine SCSI Platte mit 500MB Speicherplatz für knapp 1100 DM gekauft.
Wieviel Speicherplatz bekommst Du heute für ca. 500 Euro? Antwort: ca 10TB . Die 250TIB "Commoncrawl"-Daten bringt man somit auf ca. 25 Platten unter. Das ist mit einem einzigen Diskshelf machbar!.

Was wird in 5 Jahren sein, in 10 Jahren in 20 Jahren!. Vielleicht 1 Petabyte auf einer einzigen "TESAFILM-Platte" und den heutigen "Commoncrawl" auf einem USB-STICK in eine "Holo-Matrix"?

Und bitte jetzt keine weiteren Theoretisierungen von:" Weiß Du überhaupt wieviele Jahrtausende Du beim Eincrawlen brauchst". Und denk auch an die Datensicherung usw. usf...

Mittlerweile habe ich mir die Frage selbst beantwortet und kann jetzt ein paar Versuche damit starten :roll:

Gruß Alex
Crystalgazer
 
Beiträge: 29
Registriert: Mi Aug 12, 2015 8:38 pm

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon TmoWizard » So Sep 17, 2017 7:44 am

Guten Morgen!

Also erstens mal folgendes:

Ich bin kein Techniker und ich weiß, daß ich anno 1992 für meine 100MB SCSI-Festplatte ebenfalls ~1000 DM bezahlt habe!

Zum Zweiten:

Die erwähnte Datenmenge von "Commoncrawl" (3,28 Milliarden Dokumente) ist etwas weniger als das, was derzeit alle bekannten YaCy-Peers bei Freeworld zusammen im Index haben. Das ist wie erwähnt wohl höchsten 1 % des "Internet", also rechne nochmal nach!

Selbst Google gibt zu, daß sie bei weitem nicht alle Seiten des WWW indexiert haben. Selbst wenn Du nur jeweils die erste Seite indexieren möchtest (und das willst Du ja zur heutigen Zeit machen und nicht erst in 10 oder 20 Jahren) bräuchtest Du eher ein paar hundert der von dir erwähnten Platten, nicht nur 10 oder so!

Ich möchte dir dein Projekt echt nicht vermiesen, im Gegenteil gefällt mir die Idee sogar gut! Nur ist das so für eine einzelne Person nicht zu stemmen, das schaffen bis jetzt ja nicht einmal große Firmen wie z. B. Google oder Microsoft.
TmoWizard
 
Beiträge: 138
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon luc » Mo Sep 18, 2017 8:17 am

Hallo,
I also like this kind of apparently crazy idea!
Alex, to answer you initial question, to my mind a feasible solution can be to generate files of hosts lists and then feed your YaCy peer(s) crawlers using the "From File" crawl start point with a depth of zero.
The hosts list could maybe generated using the relevant DNS queries...

Personally I experimented this way of crawling by fetching official websites URLs referenced in Wikidata. This represents already a rather large number to play with (712518 at the moment I am writing), so I limited each file to max 100 000 hosts each, and it worked rather fine (less than one week to terminate the crawl).

Best regards
luc
 
Beiträge: 294
Registriert: Mi Aug 26, 2015 1:04 am

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon Orbiter » Mo Sep 18, 2017 10:26 pm

Hm, ein flat crawl (mit depth 0 pro Domäne) ist natürlich machbar und keine schlechte Idee. Man sollte sich nicht von einer Machbarkeitsfrage abhalten lassen, das hat uns hier in diesem Projekt noch nie gestört dass eine Aufgabe Aufwändig ist, wenn sie sinnvoll ist.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon Crystalgazer » Di Sep 19, 2017 8:53 am

Hallo zusammen,

ich war wohl etwas voreilig. Meine Crawlerlösung scheint nicht zu funktionieren. :cry:

Meine Überlegung war einen Crawl von https://de.wikipedia.org mit einer Tiefe von 4 zu beginnen. (ähnlich wie die Idee von 'luc')
Bei "Lade Filter auf URLs" KEINE Einschränkung auf Startdomain und KEINE Einschränkung auf Subpfad.
Damit crawlt sich der Crawler erstmal durch Wikipedia verläßt aber Wikipedia sobald er auf eine externe URL trifft.

Damit wird grundsätzlich alles an Urls eingesammelt was der Crawler finden kann. Also alle Wikipedia Urls und ALLE externen Urls die in Wikipedia gefunden werden können.

Die Einschränkung der Urls die dann dann in den "Index Feeder" gehen sollen erfolgt dann in der Rubrik "Dokument Filter".

In der Zeile:"Filter auf Urls" habe ich folgende Regex eingesetzt:
^(?:https?:\/\/)?(?:[^@\/\n]+@)?(?:www\.)?([^:\/\n]+)

Diese Regex sollte aus allen gefunden Urls die Top-Urls ausfiltern, damit diese UND NUR DIESE in den Index Feeder gehen sollen.

Diese Regex habe ich mit etlichen Online-Regex Simulatoren getestet und sie sollte funktionieren.

Innerhalb von Yacy funktioniert sie jedoch nicht. Weder in der Crawler Einstellung NOCH im Regex-Tester unter "Ziel-Analyse".

Frage: Was für eine Regex muß ich im "Dokument-Filter" einsetzen damit nur die Top-Urls in den Index-Feeder gehen?

Gruß Alex

P.S Die Regex stammt übrigens von hier
https://regex101.com/r/jN6kU2/1
Crystalgazer
 
Beiträge: 29
Registriert: Mi Aug 12, 2015 8:38 pm

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon Crystalgazer » Mi Sep 20, 2017 5:32 am

Luc,

Hallo,
I also like this kind of apparently crazy idea!
Alex, to answer you initial question, to my mind a feasible solution can be to generate files of hosts lists and then feed your YaCy peer(s) crawlers using the "From File" crawl start point with a depth of zero.
The hosts list could maybe generated using the relevant DNS queries...

Personally I experimented this way of crawling by fetching official websites URLs referenced in Wikidata. This represents already a rather large number to play with (712518 at the moment I am writing), so I limited each file to max 100 000 hosts each, and it worked rather fine (less than one week to terminate the crawl).

Best regards


checkout https://zmap.io/ :mrgreen:
especially the Data Repository :idea:

Best regards Alex
Crystalgazer
 
Beiträge: 29
Registriert: Mi Aug 12, 2015 8:38 pm

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon luc » Fr Sep 22, 2017 10:27 am

Thanks for the link, there are indeed interesting data and tools to explore.

About your regex, it is well-formed, but with a trailing "/" character it works better as it includes URLs such as http://example.com/ (I also checked with a small crawl and it worked rather fine). The modified regex :
Code: Alles auswählen
^(?:https?:\/\/)?(?:[^@\/\n]+@)?(?:www\.)?([^:\/\n]+)\/?
luc
 
Beiträge: 294
Registriert: Mi Aug 26, 2015 1:04 am

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

Beitragvon Crystalgazer » Fr Sep 22, 2017 2:49 pm

Hello Luc,

Code: Alles auswählen
^(?:https?:\/\/)?(?:[^@\/\n]+@)?(?:www\.)?([^:\/\n]+)\/?


Works perfect! :o :D

The trailing character is definitely necessary!.
I am testing it at the moment with https://de.wikipedia.org and what should i say, Yacy is doing the job :mrgreen:

This information helps me a lot :D
Best regards Alex
Crystalgazer
 
Beiträge: 29
Registriert: Mi Aug 12, 2015 8:38 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron