Seite 1 von 1

Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: Sa Sep 16, 2017 8:16 am
von Crystalgazer
Hi,

wahrscheinlich sehe ich den Wald vor lauter Bäumen nicht. :shock:

Ich würde gerne einen Crawl starten der möglichst das ganze Internet durchsucht und von jedem gefundenen Host nur exakt eine Seite indexiert, nämlich die Top-Url.
Es soll also so eine Art "WebVerzeichnis" entstehen.

Hat jemand eine Idee wie man so etwas in Yacy realisieren kann?

Gruß Alex :roll:

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: Sa Sep 16, 2017 11:57 am
von TmoWizard
Mahlzeit... oder so!

Crystalgazer hat geschrieben:Ich würde gerne einen Crawl starten der möglichst das ganze Internet durchsucht und von jedem gefundenen Host nur exakt eine Seite indexiert, nämlich die Top-Url.
Es soll also so eine Art "WebVerzeichnis" entstehen.


Öhm... Und wie viele Rechenzentren hat Du hierfür beschlagnahmt?

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: Sa Sep 16, 2017 2:51 pm
von Crystalgazer
Hallo Mike,

Öhm... Und wie viele Rechenzentren hat Du hierfür beschlagnahmt?


soviele Rechenzentren braucht es dafür nicht.

1.Ich bin erstmal gar nicht an "Deep-Web" Inhalten interessiert.
Das reduziert schon einmal die Datenmenge erheblich

2."Commoncrawl" meldet für August 2017 folgende Daten
It contains 3.28 billion+ web pages and over 280 TiB of uncompressed content.

Das ist zwar viel, aber nicht unfaßbar viel.

3. Das sowas nicht an einem Nachmittag gecrawlt werden kann ist mir auch klar.

Also zurück zur Frage. Wie muß ich einen Crawler einstellen der möglichst alles indiziert (Hops 0) bis
die Platte platzt?

Gruß Alex

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: Sa Sep 16, 2017 5:21 pm
von Crystalgazer
Hi zusammen,

hat sich erledigt. :mrgreen:

Gruß Alex

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: Sa Sep 16, 2017 7:37 pm
von TmoWizard
Hallo Alex!

Crystalgazer hat geschrieben:
2."Commoncrawl" meldet für August 2017 folgende Daten
It contains 3.28 billion+ web pages and over 280 TiB of uncompressed content.

Das ist zwar viel, aber nicht unfaßbar viel.


Umgerechnet auf deutsch also 3,28 Milliarden Seiten, das dürfte so ungefähr 1% des WWW darstellen, wenn überhaupt! Also nochmal meine Frage:

Wie viele Rechenzentren hast Du für dein Vorhaben beschlagnahmt?

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: So Sep 17, 2017 6:05 am
von Crystalgazer
Hallo Mike,

was mich immer wieder wundert ist die Unfähigkeit von Technikern auf eine einfache Frage einfach nur mal eine Antwort zu geben.
Stattdessen wird eine Idee als Ganzes sofort in Frage gestellt und die Unmöglichkeit der Realisierung demonstriert.

Schau mal Mike, vor 25 Jahren habe ich mir mal eine SCSI Platte mit 500MB Speicherplatz für knapp 1100 DM gekauft.
Wieviel Speicherplatz bekommst Du heute für ca. 500 Euro? Antwort: ca 10TB . Die 250TIB "Commoncrawl"-Daten bringt man somit auf ca. 25 Platten unter. Das ist mit einem einzigen Diskshelf machbar!.

Was wird in 5 Jahren sein, in 10 Jahren in 20 Jahren!. Vielleicht 1 Petabyte auf einer einzigen "TESAFILM-Platte" und den heutigen "Commoncrawl" auf einem USB-STICK in eine "Holo-Matrix"?

Und bitte jetzt keine weiteren Theoretisierungen von:" Weiß Du überhaupt wieviele Jahrtausende Du beim Eincrawlen brauchst". Und denk auch an die Datensicherung usw. usf...

Mittlerweile habe ich mir die Frage selbst beantwortet und kann jetzt ein paar Versuche damit starten :roll:

Gruß Alex

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: So Sep 17, 2017 7:44 am
von TmoWizard
Guten Morgen!

Also erstens mal folgendes:

Ich bin kein Techniker und ich weiß, daß ich anno 1992 für meine 100MB SCSI-Festplatte ebenfalls ~1000 DM bezahlt habe!

Zum Zweiten:

Die erwähnte Datenmenge von "Commoncrawl" (3,28 Milliarden Dokumente) ist etwas weniger als das, was derzeit alle bekannten YaCy-Peers bei Freeworld zusammen im Index haben. Das ist wie erwähnt wohl höchsten 1 % des "Internet", also rechne nochmal nach!

Selbst Google gibt zu, daß sie bei weitem nicht alle Seiten des WWW indexiert haben. Selbst wenn Du nur jeweils die erste Seite indexieren möchtest (und das willst Du ja zur heutigen Zeit machen und nicht erst in 10 oder 20 Jahren) bräuchtest Du eher ein paar hundert der von dir erwähnten Platten, nicht nur 10 oder so!

Ich möchte dir dein Projekt echt nicht vermiesen, im Gegenteil gefällt mir die Idee sogar gut! Nur ist das so für eine einzelne Person nicht zu stemmen, das schaffen bis jetzt ja nicht einmal große Firmen wie z. B. Google oder Microsoft.

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: Mo Sep 18, 2017 8:17 am
von luc
Hallo,
I also like this kind of apparently crazy idea!
Alex, to answer you initial question, to my mind a feasible solution can be to generate files of hosts lists and then feed your YaCy peer(s) crawlers using the "From File" crawl start point with a depth of zero.
The hosts list could maybe generated using the relevant DNS queries...

Personally I experimented this way of crawling by fetching official websites URLs referenced in Wikidata. This represents already a rather large number to play with (712518 at the moment I am writing), so I limited each file to max 100 000 hosts each, and it worked rather fine (less than one week to terminate the crawl).

Best regards

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: Mo Sep 18, 2017 10:26 pm
von Orbiter
Hm, ein flat crawl (mit depth 0 pro Domäne) ist natürlich machbar und keine schlechte Idee. Man sollte sich nicht von einer Machbarkeitsfrage abhalten lassen, das hat uns hier in diesem Projekt noch nie gestört dass eine Aufgabe Aufwändig ist, wenn sie sinnvoll ist.

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: Di Sep 19, 2017 8:53 am
von Crystalgazer
Hallo zusammen,

ich war wohl etwas voreilig. Meine Crawlerlösung scheint nicht zu funktionieren. :cry:

Meine Überlegung war einen Crawl von https://de.wikipedia.org mit einer Tiefe von 4 zu beginnen. (ähnlich wie die Idee von 'luc')
Bei "Lade Filter auf URLs" KEINE Einschränkung auf Startdomain und KEINE Einschränkung auf Subpfad.
Damit crawlt sich der Crawler erstmal durch Wikipedia verläßt aber Wikipedia sobald er auf eine externe URL trifft.

Damit wird grundsätzlich alles an Urls eingesammelt was der Crawler finden kann. Also alle Wikipedia Urls und ALLE externen Urls die in Wikipedia gefunden werden können.

Die Einschränkung der Urls die dann dann in den "Index Feeder" gehen sollen erfolgt dann in der Rubrik "Dokument Filter".

In der Zeile:"Filter auf Urls" habe ich folgende Regex eingesetzt:
^(?:https?:\/\/)?(?:[^@\/\n]+@)?(?:www\.)?([^:\/\n]+)

Diese Regex sollte aus allen gefunden Urls die Top-Urls ausfiltern, damit diese UND NUR DIESE in den Index Feeder gehen sollen.

Diese Regex habe ich mit etlichen Online-Regex Simulatoren getestet und sie sollte funktionieren.

Innerhalb von Yacy funktioniert sie jedoch nicht. Weder in der Crawler Einstellung NOCH im Regex-Tester unter "Ziel-Analyse".

Frage: Was für eine Regex muß ich im "Dokument-Filter" einsetzen damit nur die Top-Urls in den Index-Feeder gehen?

Gruß Alex

P.S Die Regex stammt übrigens von hier
https://regex101.com/r/jN6kU2/1

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: Mi Sep 20, 2017 5:32 am
von Crystalgazer
Luc,

Hallo,
I also like this kind of apparently crazy idea!
Alex, to answer you initial question, to my mind a feasible solution can be to generate files of hosts lists and then feed your YaCy peer(s) crawlers using the "From File" crawl start point with a depth of zero.
The hosts list could maybe generated using the relevant DNS queries...

Personally I experimented this way of crawling by fetching official websites URLs referenced in Wikidata. This represents already a rather large number to play with (712518 at the moment I am writing), so I limited each file to max 100 000 hosts each, and it worked rather fine (less than one week to terminate the crawl).

Best regards


checkout https://zmap.io/ :mrgreen:
especially the Data Repository :idea:

Best regards Alex

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: Fr Sep 22, 2017 10:27 am
von luc
Thanks for the link, there are indeed interesting data and tools to explore.

About your regex, it is well-formed, but with a trailing "/" character it works better as it includes URLs such as http://example.com/ (I also checked with a small crawl and it worked rather fine). The modified regex :
Code: Alles auswählen
^(?:https?:\/\/)?(?:[^@\/\n]+@)?(?:www\.)?([^:\/\n]+)\/?

Re: Web Crawler mit 0 Hops Tiefe (Webverzeichnis)

BeitragVerfasst: Fr Sep 22, 2017 2:49 pm
von Crystalgazer
Hello Luc,

Code: Alles auswählen
^(?:https?:\/\/)?(?:[^@\/\n]+@)?(?:www\.)?([^:\/\n]+)\/?


Works perfect! :o :D

The trailing character is definitely necessary!.
I am testing it at the moment with https://de.wikipedia.org and what should i say, Yacy is doing the job :mrgreen:

This information helps me a lot :D
Best regards Alex