Großes internes Subnetz crawlen (intranet)

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Großes internes Subnetz crawlen (intranet)

Beitragvon Floh1111 » Do Mär 31, 2011 12:01 pm

Hi,

es gibt ja seit dem 27c3 diese wunderbare Funktion um interne Netze zu crawlen. Allerdings habe ich bisher nur herausgefunden wie man das /24er Subnetz eines angegebenen Hosts crawlt. Ich würde aber bspw. gerne ein /16er oder sogar /8er Subnetz crawlen. Geht das und was muss ich dafür als Scan Bereich angeben? Oder ist das hardcoded dass man nur /24er subnetze crawlen kann?

Die Funktion findet man in Yacy unter:
http://localhost:8080/CrawlStartScanner_p.html

LG
Floh1111
Floh1111
 
Beiträge: 7
Registriert: Fr Nov 09, 2007 2:34 pm

Re: Großes internes Subnetz crawlen (intranet)

Beitragvon Orbiter » Do Mär 31, 2011 12:21 pm

ah interessant dass das auch jemand benutzt :lol:
Naja wenn man mal darüber stolpert dass das sinnvoll ist..

Also diese Funktion will ich nicht unbedingt 'mit heisser Nadel gestrickt' bezeichnen weil es speziell auf das was ich beim 27C3 erwartete zugeschnitten war aber es ist schon so dass die Beschränkung auf ein /24er Subnetz (und auch auf IPv4 Adressen) der bequemste Weg war ein Subnetz zu definieren.

Wenn man nun /16er oder /8er Subnetze erfassen will muss man sich klar machen dass das eine Menge Holz ist und wahrscheinlich so wie es implementiert ist nicht geht. Immerhin wartet der Browser darauf dass die ganzen IPs mit allen angegeben Protokollen getestet werden, und das bedeutet gleichzeitig auch das Warten auf hunderte Time-Outs beim Zugriff auf die relevanten Ports und das geht auch nur mit einer gewissen Parallelität was dann bei rund hundert gleichzeitigen Threads auch eine Grenze findet.

Also für noch mehr Adressen müsste das ganze Ding ein wenig umgeschrieben werden. Ist momentan nicht bei mir auf der Liste der wichtigen Dinge. Kannst du denn das nicht selber ein wenig fokussieren? Du wirst ja schon wissen auf welche Adressen man das in einem /16er Subnetz einschränken kann.

Ansonsten würde ich vorschlagen das Interface über ein wget/curl-Script von aussen zu scripten.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Großes internes Subnetz crawlen (intranet)

Beitragvon Floh1111 » Do Mär 31, 2011 12:32 pm

Wenn ich das könnte würde ich das sofort machen (nachdem ich für die letzten Abiklausuren gelernt hab :D).
Die Probleme die du ansprichst verstehe ich wohl allerdings kann ich das nicht umsetzen weil ich davon so gut wie keine Ahnung habe.

Ist aber nicht schlimm. Ich hatte vor das Freifunknetz aus Spielerei mal abzugrasen und zu schauen ob man daraus vielleicht etwas such-mäßiges machen könnte. Wenn das derzeit aber nicht geht ist das nicht weiter tragisch.

LG
Clemens
Floh1111
 
Beiträge: 7
Registriert: Fr Nov 09, 2007 2:34 pm

Re: Großes internes Subnetz crawlen (intranet)

Beitragvon Orbiter » Di Apr 05, 2011 10:53 pm

es wäre tatsächlich nicht schlecht das Freifunknetz zu indexieren. Ich wurde dazu schon mehrfach in den letzten Jahren beim Linuxtag gefragt das zu machen. Das Problem war immer dass man im Freifunknetz versäumt hatte die IP-Adressen für Intranet-Netze freizuhalten und die somit eine gemischte Nutzung von Intranet- und Internet-IPs hatten. Das kann man aber mit YaCy nun bewältigen indem man auf den 'allip'-Modus schaltet:
- /ConfigNetwork_p.html aufrufen
- in 'Network Definition' das Profil mit 'allip' auswählen
- 'Change Network' drücken.

Wenn es um das Scripten der API-Aufrufe geht: einfach mit wget die URL der entsprechenden Webseiten aufrufen.
Also Beispiel: Wenn du einen Crawl gestartet hast, dann rufe mal danach
/Table_API_p.html
auf. Dort siehst du deinen Crawl Start als URL auf dein YaCy Interface in der Spalte 'URL'. Die URL nimmst du dann und schreibst sie in einen wget-Aufruf:
wget "<URL-aus-API-Table>"
also mit quotes vorne und hinten an der URL
Diese Zeile kannst du dann vervielfältigen und jeweils andere IP-Adressen als Startpunkt für den Subnetzcrawl eintragen. Auf die Weise könntest du bsp. hunderte von wget-Aufrufen kombinieren, du solltest aber darauf achten welche IP-ranges im Freifunk-Netz tatsächlich verwendet werden.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast