Hilfeschrei Projekt "Suchmaschine für Kids"

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Sa Jan 22, 2011 8:10 pm

Ein freundliches Hallo in die Runde der YaCy-Gemeinde!

Mein Name ist André kind und ich bin der 1. Vorsitzender des Vereins Eltern ans Netz e. V..
Seit 2 Jahren betreiben wir eine "echte" Suchmaschine für Kids und Teens auf loopilino.de inkl. nachfolgenden Diensten. Für diese werbefreie "Suchmaschine" benutzen wir derzeit die benutzerdefinierte Suche auf Basis der Google-Technologie mit einer Whitelist. Diese Whitelist beinhaltet von uns manuell überprüfte Kinderwebseiten ohne Werbung, ohne Shops und ohne Abos und beinhaltet derzeit mehr als 1000 Haupt-Domains.

Die neue Zielstellung für uns lautet, sich von der benutzerdefinierten Suche von Onkel Google endgültig zu verabschieden. Die Gründe dafür möchte ich hier dazu nicht weiter erörtern (Vorstandsbeschluss).
Diesbezüglich bin ich u. a. auf der Suche nach Alternativen auf YaCy gestoßen, was sich für uns im Moment durchaus als Hauptalternative darstellt.

Wer nach mir sucht: Nun, es ist keine Geheimnis, das ich durchaus aus entfernten Bereichen der IT komme. Man kann sich mit mir über Netzwerke, Microsoftserver, DHCP, DNS, Gruppenrichtilinien (mein 2. Vorname), Exchange etc. ernsthaft unterhalten. Ich habe aber auch meine Grenzen. Ich bin einfach kein Programmierer und das "Herumstochern" in den Bereichen der Programmiersprachen macht einfach keinen Sinn. Dafür gibt es die Fachkollegen. Und genau da ist der Ansatz für meinen großen Hilferuf.

YaCy herunterladen, auf eine XP-Kiste gestzt, Port freigeschalten, DynDNS eingerichtet, Crawler auf Hauptdomain angestezt, nicht gewollte Links gelöscht bzw. geblacklistet und dann der Versuch der Integration auf den neuen Testbereich für loopilino.de.
Genau an dieser Stelle geht es los mit den Problemen, welche ich hier nur mal global aufliste.

- Icons werden nicht angezeigt
- Beschreibungen der Links sind nicht vorhanden
- Portalintegration ins CMS (wohl Java) keine dynamische Seitenintegration
- "Metadata | Parser | Bilder" kann ich in Anzeige nicht entfernen (interessiert die Kids nicht)
- Bilder in Bildersuche werden nicht angezeigt

Das sieht alles Mist aus und kann ich Kindern so nicht anbieten. Schaut mal auf die Links, welche ich unten in der Testumgebung angeben habe. Ich weiß, daß ich garantiert etwas falsch gemacht habe, finde aber keinen Ansatz mehr. Es ist nicht mein Fachgebiet! Das ist auch genau jetzt der Grund, dass ich mich an Euch und die Entwickler wende. Wir brauchen hier echt tatkräftige Unterstützung.

Als gemeinütziger Verein haben wir selbst keine großen finanziellen Möglichkeiten. Wir nehmen keine Fördergelder, um unabhängig zu bleiben, und finanzieren uns nur über Mitgliedsbeiträge und Spenden. Daher ist unsere Vereinskasse aus Zwiebelleder gemacht - uns kommen jedes mal die Tränen, wenn wir reinsehen!
Im Klartext: Außer Ruhm und Ehre und eine Verlinkung bei eltern-ans-netz.com können wir leider nix bieten.

In der Hoffnung auf großzügige fachliche Unterstützung verbleibe ich mit den besten Grüßen aus der Messestadt Leipzig
Euer André Kind
___________________________________________________
Meldungen über unser Projekt Loopilino:
http://www.eltern-ans-netz.com/news.php?readmore=196
http://www.eltern-ans-netz.com/news.php?readmore=250
http://www.eltern-ans-netz.com/news.php?readmore=292
http://www.eltern-ans-netz.com/news.php?readmore=460

Original mit benutzerdefinierter Suche und unserer Whitelist von Google:
http://www.loopilino.de

1. Testumgebung mit unterschiedlichen Darstellungen von YaCy
http://web22.hc121090.tuxtools.net/view ... ?page_id=1
http://web22.hc121090.tuxtools.net/view ... page_id=10
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Quix0r » Sa Jan 22, 2011 10:45 pm

Andre hat geschrieben:[...] Diese Whitelist beinhaltet von uns manuell überprüfte Kinderwebseiten ohne Werbung, ohne Shops und ohne Abos und beinhaltet derzeit mehr als 1000 Haupt-Domains.

Das ist mit YaCy auch moeglich. Die Crawl-Profile koennen auf die Start-Domain beschraenkt werden (z.B. www.blinde-kuh.de), bei deinen besagten 1.000 Haupt-Domains kann dies sehr mueselig werden, vielleicht weiss jemand anderes aus dem Forum einen besseren Rat?).

Andre hat geschrieben:Die neue Zielstellung für uns lautet, sich von der benutzerdefinierten Suche von Onkel Google endgültig zu verabschieden. Die Gründe dafür möchte ich hier dazu nicht weiter erörtern (Vorstandsbeschluss).

Ich tippe auf Datenschutz und Werbung, die Google gerne mal einbaut.

Andre hat geschrieben:[...]
YaCy herunterladen, auf eine XP-Kiste gestzt, Port freigeschalten, DynDNS eingerichtet, Crawler auf Hauptdomain angestezt, nicht gewollte Links gelöscht bzw. geblacklistet und dann der Versuch der Integration auf den neuen Testbereich für loopilino.de.

Zu Testzwecken ist XP erstmal okay, wenn aber nachher "Dampf" aus der Kiste ist, da die Kinder dann lossuchen, sollte besser auf Linux gewechselt werden, da es einfach mehr aushaelt. Oder wird die Suche nicht so intensiv genutzt?

Andre hat geschrieben:- Icons werden nicht angezeigt

Welche Icons? Die favicon.ico werden nur an den Suchergebnissen angezeigt, wenn die Seite auch welche anbietet.

Andre hat geschrieben:- Beschreibungen der Links sind nicht vorhanden

Das kann mal vorkommen, da (soweit meine Erinnerung reicht) ab und an die "HTML-Schnipsel nicht geladen werden". Dies sind kleine Webseiten-Ausschnitte, die zum Darstellen der Suchergenisse benoetigt werden.

Andre hat geschrieben:- Portalintegration ins CMS (wohl Java) keine dynamische Seitenintegration

Die drei unter http://127.0.0.1:8080/ConfigLiveSearch.html reichen nicht aus?

Andre hat geschrieben:- "Metadata | Parser | Bilder" kann ich in Anzeige nicht entfernen (interessiert die Kids nicht)

Siehe Template htroot/yacysearchitem.html und dort nach "urlinfo" suchen.

Andre hat geschrieben:- Bilder in Bildersuche werden nicht angezeigt

Das kann aus verschiedenen Gruenden passieren, mal ist das Bild beim Parsen nicht sofort vorhanden oder schlicht ein Bug liegt vor, YaCy ist auch nicht perfekt. ;)

Andre hat geschrieben:Das sieht alles Mist aus und kann ich Kindern so nicht anbieten. Schaut mal auf die Links, welche ich unten in der Testumgebung angeben habe. Ich weiß, daß ich garantiert etwas falsch gemacht habe, finde aber keinen Ansatz mehr. Es ist nicht mein Fachgebiet! Das ist auch genau jetzt der Grund, dass ich mich an Euch und die Entwickler wende. Wir brauchen hier echt tatkräftige Unterstützung.

Ich selber nutze zu 80% YaCy und zu 20% programmiere ich dran. Warte einfach mal die Antworten von z.B. Orbiter (Hauptentwickler, "Erfinder")/SixCooler und weitere (mit gruenem Nickname) ab, die haben mehr Ahnung. :)

Andre hat geschrieben:[...]
Im Klartext: Außer Ruhm und Ehre und eine Verlinkung bei eltern-ans-netz.com können wir leider nix bieten.

Ist doch was? ;) Nein, ich denke niemand hier wird eine Verlinkung als Gegenleistung verlangen.

Andre hat geschrieben:In der Hoffnung auf großzügige fachliche Unterstützung verbleibe ich mit den besten Grüßen aus der Messestadt Leipzig

Hoffe, dass ich wenigstens etwas vorweg helfen konnte.

Gruss,
Roland
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Orbiter » So Jan 23, 2011 12:31 am

hallo Andre,

hier schnell eine Hilfe zu den verschiedenen Suchoptionen: Bildersuche, andere Mediensuche kann man abschalten durch entsprechende Konfiguration in DATA/SETTINGS/yacy.conf:
Code: Alles auswählen
search.text = true
search.image = true
search.audio = true
search.video = true
search.app = true

steht da drin und wenn du die entsprechenden Werte auf false setzt dann werden sie nicht angezeigt.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Vega » Mo Jan 24, 2011 11:49 am

Hallo Andre,

ich denke wir bekommen das hin, vieles was Du möchtest geht mit Yacy, ich versuche Dir gern dabei zu helfen.
Am besten Du machst noch einmal eine Liste - im Business würde das "Pflichtenheft" heißen, und wir versuchen das gemeinsam Punkt für Punkt abzuarbeiten.


Das ist kein Problem, Ruhm und Ehre und die Nennung als Referenzprojekt würden schon reichen :-)

Im Klartext: Außer Ruhm und Ehre und eine Verlinkung bei eltern-ans-netz.com können wir leider nix bieten.


Grüße aus Dreden
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Cominch » Mo Jan 24, 2011 6:06 pm

Zum Thema Whitelist:

Im Sciencenet ist z.B. eine Whitelist aktiviert, die global auf alle Bereiche zwangsweise (und für den Benutzer nicht sichtbar) angewandt wird:

http://sciencenet.kit.edu/SiteListPlainText --> enthält die Regulären Ausdrücke für die Whitelist
http://sciencenet.kit.edu/URLListLinks --> enthält die Crawler-Start-URLs

Einfach in der Netzwerkdefinition folgende Zeile hinzufügen, um die Whitelist zu aktivieren:

network.unit.domainlist = http://sciencenet.kit.edu/SiteListPlainText

Die Listen erstelle ich mit einer ASP.NET Seite (sorry dafür ;) ) und speichere die Einträge in einer kleinen Datenbank. Das ganze ist noch im Entwicklungsstadium, wenn's denn mal fertig ist kann es sein, dass ich das ganze zu LAMP portiere...
Aber die Datenbank habt ihr ja schon, es reicht also, eine entsprechenden Dump zu erzeugen der die URLs in das RegEx-Schema überführt.

Gruß Dominic

Siehe auch folgenden Thread: http://forum.yacy-websuche.de/viewtopic.php?f=5&t=2250
Cominch
 
Beiträge: 11
Registriert: Fr Jan 14, 2011 5:01 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Mo Jan 24, 2011 11:59 pm

Hi Leute,

super lieben Dank für Eure Hinweise. Hätte nicht gedacht so schnell Hilfe zu erhalten. Danke an alle. Ich les mir jetzt Eure Threads erst mal genau durch und versuch das ganz langsam nachzuvollziehen und umzusetzen, insoweit ich es geschnallt habe. :)
Mit Eurer Hilfe werden wir das aber bestimmt packen. Ich werde in Kürze demnach auf alle Einzelheiten eingehen. (Au Backe, was hab ich mir dabei nur aufgeladen - wird echt harte Arbeit für den ollen Netzwerker ;))
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Orbiter » Di Jan 25, 2011 11:10 am

Quix0r hat geschrieben:
Andre hat geschrieben:[...] Diese Whitelist beinhaltet von uns manuell überprüfte Kinderwebseiten ohne Werbung, ohne Shops und ohne Abos und beinhaltet derzeit mehr als 1000 Haupt-Domains.

Das ist mit YaCy auch moeglich. Die Crawl-Profile koennen auf die Start-Domain beschraenkt werden (z.B. www.blinde-kuh.de), bei deinen besagten 1.000 Haupt-Domains kann dies sehr mueselig werden, vielleicht weiss jemand anderes aus dem Forum einen besseren Rat?).

Das einfachst ist, die whitelist einfach als Webseite hochzuladen und diese als crawlstart-URL beim site-Crawl anzugeben. Dort dann aber die Option "Link-List of URL" wählen, dann werden alle diese Links als einzelne site-crawls ausgeführt.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Vega » Di Feb 01, 2011 10:31 pm

@Andre - gibt es schon Neuigkeiten ?

Gruß, Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Di Feb 01, 2011 11:07 pm

Hallo @all

@Quix0r
- 1.000 Haupt-Domains wird klappen dank des Hinweises von @Cominch & @Orbiter
- Die Originalsuchmaschine kommt dann auf einen Server im Rechenzentrum, logisch :)
- Iconproblem scheint nur ein Bug in der Live-Suche zu sein. IFrame zeigt es an.

@Orbiter
Danke für den Hinweis auf die DATA/SETTINGS/yacy.conf. Hätte ich nie gefunden und hab "Anwendungen" schon ausgeblendet. Klappt :)

@Vega
Meinst Du das wir dazu wirklich ein Pflichtenheft benötigen?
Das Ding muss laufen, wie das geht lern ich gerade hier bei Euch und die Design-Anpassungen sind bestimmt auch nicht so viel, oder?
Ich tendiere dazu mich auch für das IFrame-Outfit zu entscheiden. Hab jetzt gerade "grey" genommen und erste Farbeinstellungen verändert.

Ansonsten bin ich derzeit daran das grobe Grundgerüst des CMS zu komplettieren und mir die Suchergebnisse anzuschauen, welche komischer Weise beim selben Begriff unterschiedlich sind.

EDIT:
Ein Frage hätte ich vorab doch noch. Wo kann ich in der Ansicht (IFrame) die Funktionen
"mehr Optionen..."
"erweiterte Parameter"
abstellen?

Danke und liebe Grüße aus Leipzig
André
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Quix0r » Di Feb 01, 2011 11:59 pm

Siehe htroot/index.html, dort nach more options... suchen und die beiden p-tags komplett rauswerfen. Das einzige Problem hier sind dann die kommenden Updates. Dort musst du erneut dies tun, da sie beim Ueberschreiben verloren gehen.

Auch deine gemachten Farbaenderungen solltest du in einem eigenen Theme machen und nicht die bestehenden CSS-Dateien aendern. Also wenn du mit 'grey' angefangen hast, dann kopiere diese (skins/grey.css) nach z.B. skins/eltern-ans-netz.css. Dann kommst du mit spaeteren Updates weniger in Konflikt.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Mi Feb 02, 2011 12:52 am

@Quix0r
Danke Dir. Das sind wichtige Hinweise.
Ich werd mich jetzt sowieso dazu zwingen, alles genaustens zu dokumentieren um den Überblick zu behalten und bei Updates darauf reagieren zu können.
4 Fragen zu den Suchergebnissen:
1. Welche Datei (schätze mal css) ist für die blauen Pfeile verantwortlich?
----> EDIT: Habs gefunden: htroot\env\grafics da liegen die Bilder drin.
2. Wie kann ich die Suchergebnisse pro Seite beschränken?
3. Warum ist da ein Querscrollbalken und wie bekomme ich den weg?
4. Wenn ich nach Videos suche bekomme ich eine andere Ansicht (warum auch immer), welche die Dateien/Seiten nicht in einem neuen Fester öffnet. Wie komm ich da ran?
Suche nach "Musik" oder "Video" - Siehe: http://web22.hc121090.tuxtools.net/view ... ?page_id=1

Danke und Gruß aus der Messestadt
André
Zuletzt geändert von Andre am Mi Feb 02, 2011 2:05 am, insgesamt 1-mal geändert.
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Quix0r » Mi Feb 02, 2011 1:16 am

Zu 1. und 2.: Das ist beides im Servlet yacysearch.java (htroot/yacysearch.java) zu finden. @Orbiter: Kann der Wert 10 konfigurierbar gemacht werden?

Zu 3. und 4. musst du die anderen abwarten.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Orbiter » Mi Feb 02, 2011 1:55 am

das mit 3. verstehe ich nicht: welche querscrollbalken?

zu 4. habe ich einen Fix in SVN 7463 gemacht: es werden nun die richtigen Targets genommen. Die Darstellung ist anders weil es für solche Medien mehr Sinn macht tabellarisch zu listen. Ich muss aber zugeben dass diese Art der Suche nun immer noch ein wenig experimentell ist.

zu 1.: für das dämliche hardcodieren der blauen Pfeile bin ich verantwortlich :( wenn jemand weiss wie man das ins css bekommt dann bitte das da rein bauen, ich bin nicht so der css-Held

zu 2.: wie meinst du das beschränken? Das sind ja per default 10. Man kann eine get-Anfrage bauen wo genau drin steht wieviele angezeigt werden sollen, bsp.:
http://eanproxy.dyndns.org:8080/yacysea ... mRecords=3
aber das meinst du ggf. nicht.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Mi Feb 02, 2011 2:15 am

Hallo Orbiter,

1. gelöst - hab zumindestens die Grafiken gefunden (krieg ich damit gebacken :))
2. okay, wenn 10 die Grundeinstellung ist werd ich mein IFrame mal vergrößern würde mich aber trotzdem mal zum Testen verändern wollen
3. Querscrollbalken auf einmal nicht mehr da. Hät ich nur mal einen Screen gemacht. Naja, meld mich, wenn wieder da.
------->EDIT: Querscrollbalken wieder da http://web22.hc121090.tuxtools.net/www/ ... balken.jpg
4. kannst Du mir zumindest sagen wo ich dann "blank" einstellen könnte, da die Dateien im Frame bleiben.

Danke und Gruß aus Leipzig
André
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Mi Feb 02, 2011 3:22 am

@Quix0r
- "Metadata | Parser | Bilder" kann ich in Anzeige nicht entfernen (interessiert die Kids nicht)
Siehe Template htroot/yacysearchitem.html und dort nach "urlinfo"

Code: Alles auswählen
<p class="urlinfo">#[date]# | #[sizename]# | <a href="api/yacydoc.html?urlhash=#[urlhash]#" onclick="return hs.htmlExpand(this, { objectType: 'ajax'} )">Metadata</a> | <a href="ViewFile.html?urlHash=#[urlhash]#&amp;words=#[words]#&amp;display=#[display]#">Parser</a> | <a href="yacysearch.html?cat=image&amp;url=#[link]#&amp;query=#[former]#&amp;display=#[display]#">Pictures</a></p>

hab ich gelöscht und ist immer noch da - hab ich was falsch gemacht?
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Quix0r » Mi Feb 02, 2011 3:53 am

Vermutlich einmal neustarten hilft.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Orbiter » Mi Feb 02, 2011 9:00 am

Guten Morgen!
Andre hat geschrieben:4. kannst Du mir zumindest sagen wo ich dann "blank" einstellen könnte, da die Dateien im Frame bleiben.

in /ConfigPortal.html unter "Target for Click on Search Results"

Andre hat geschrieben:- "Metadata | Parser | Bilder" kann ich in Anzeige nicht entfernen (interessiert die Kids nicht)

Hab mir schon das gedacht. Ich würde hier vorschlagen dass ich auf der gleichen /ConfigPortal.html dazu eine Konfiguration baue um es auszuschalten.

Andre hat geschrieben:
Code: Alles auswählen
<p class="urlinfo">#[date]# | #[sizename]# | <a href="api/yacydoc.html?urlhash=#[urlhash]#" onclick="return hs.htmlExpand(this, { objectType: 'ajax'} )">Metadata</a> | <a href="ViewFile.html?urlHash=#[urlhash]#&amp;words=#[words]#&amp;display=#[display]#">Parser</a> | <a href="yacysearch.html?cat=image&amp;url=#[link]#&amp;query=#[former]#&amp;display=#[display]#">Pictures</a></p>

hab ich gelöscht und ist immer noch da - hab ich was falsch gemacht?

Es gibt einen Template Cache. Den kann man entweder in DATA/SETTINGS/yacy.conf ausschalten, siehe property 'enableTemplateCache', den auf false setzten. Oder neu starten.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Orbiter » Mi Feb 02, 2011 4:56 pm

Orbiter hat geschrieben:
Andre hat geschrieben:- "Metadata | Parser | Bilder" kann ich in Anzeige nicht entfernen (interessiert die Kids nicht)

Hab mir schon das gedacht. Ich würde hier vorschlagen dass ich auf der gleichen /ConfigPortal.html dazu eine Konfiguration baue um es auszuschalten.

habs in SVN 7466 eingebaut. Da kannst du die ganzen Details was anzuzeigen ist in /ConfigPortal.html ein- und ausschalten. Dort ist nun auch eine Option um die Suchoptionen auf index.html auszublenden.

I.A ist es für dich besser wenn du nicht so viel in den servlets ändern musst, denn dann ist es für dich einfacher Updates hochzuladen.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Vega » Mi Feb 02, 2011 8:56 pm

@Michael -die Konfigurationsmöglichkeiten die Du in SVN 7466 eingebaut hast sind super !!!

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Quix0r » Mi Feb 02, 2011 9:33 pm

Stelle ich die Default-Einstellungen ein, so leitet index.html immer an Status.html weiter. :( Irgentwas ist hier kaputt gegangen, seitdem diese neuen Einstellungen drinne sind.

indexForward ist der Parameter, dieser stand bei mir auf Status.html, den Eintrag leeren und es klappt wieder.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Orbiter » Do Feb 03, 2011 11:43 am

ok, fix in SVN 7467
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Sa Feb 12, 2011 1:31 am

Hallo @all

Damit keiner denkt ich sei eingeschlafen und/oder mache nix, gibt es heute den Link zum aktuellen Stand und was noch zu tun ist. Unter http://www.loopilino.com/news.php?readmore=1 könnt ihr jetzt alles genau beobachten.

Schönes Wochenende und Gruß aus Leipzig
André
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Orbiter » Sa Feb 12, 2011 2:12 am

oh wow ihr seid mit der Suche auch schon live!
Und sieht schon gut aus!

Das wäre auch was schönes für unseren Blog um von euch zu berichten.
Am besten schreibt Marc was... Marc du machst das immer so schön.
User Blog hat einen guten Verteileranschluss. Wollen wir dafür einen Termin machen (nicht vor .. / bis .. fertig) oder können wir das rausposaunen?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Sa Feb 12, 2011 9:22 am

Hallo Orbiter,

die Suche ist noch nicht LIVE. Die liegt noch auf meine Kiste.
Ich hab noch nen Sack voll zu tun. Wartet also mal bitte noch so lange ab, bis wir unsere "Liste" abgearbeitet haben.
Ich versprech Euch aber, dass IHR es als Erste "rausposaunen" dürft. Dafür geb ich Euch auch vorab unsere offizielle Pressemeldung, damit ihr nicht so viel Text frei "erfinden" müsst. Also bitte mal noch etwas Geduld.

Danke für Euer Verständnis
André
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Low012 » Di Feb 15, 2011 10:35 pm

Einen Artikel fürs Blog kann ich gerne schreiben und ich warte natürlich damit auch gerne so lange, bis alles wirklich fertig ist. Wenn ich nicht viel "erfinden" muss, bin ich natürlich froh. ;)
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Di Feb 22, 2011 12:57 pm

Kurze Meldung:

1. Test angefahren auf Virtualserver (Windows Server 2003 R2 Datacenter 64bit ) Yacy stürtzt laufend ab.
- YaCy - Version 0.99/7498
- keine Fehlermeldungen im System
- Fehlermeldungen von Yacy (weiß ich nicht, wo ich die finden könnte)
- Java nach Abstürzen neu (jre-6u24-windows-x64) installiert - ohne Erfolg
Hat jemand Erfahrung oder kann eventuell weiter helfen?

2. Gibt es eine Backupmöglichkeit des kompletten Systems oder reicht es den Ordner YaCy einfach zu kopieren?

3. Wo kann ich nach einem Neustart die gecrawlten URLs sehen?

Liebe Grüße aus Leipzig
André
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Orbiter » Di Feb 22, 2011 1:17 pm

zu 1)
ich hab mit vserver auch schlechte Erfahrung gemacht und glaube dass es daran liegt dass diese ein rabiates Speichermanagement haben. Ggf. schiessen die vserver einfach Prozesse ab wenn sei glauben diesse nehmen zu viel RAM. Hier muss man versuchen die Xmx und Xms-Werte in DATA/SETTINGS/yacy.conf manuell abzusenken bis es klappt.
oder dem VServer mehr Speicher geben.

zu 2)
alles ist im DATA-Ordner, nur den muss man sichern. Oder das ganze Verzeichnis, aber das wird bei Updates sowieso zu großen Teilen überschrieben.

zu 3)
ggf. im Log: unter DATA/LOG/ entsprechend greppen oder man kann auch alle URLs im Suchindex per Export herausziehen: /IndexControlURLs_p.html unter 'Loaded URL Export'. Da gibts auch verschiedenste Formate.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Di Feb 22, 2011 1:27 pm

Hallo Orbiter,

hast Du

zu 1.
Xmx und Xms-Werte Erfahrungswerte? Unser Server hat 1GB RAM zugesichert.

zu 2.
Das ist prima, da kann ich es zumindestens sichern.

zu 3.
Super, das hat geklappt. Danke

Zur Blackliste:
Ist es richtig, wenn ich dort (*.testdomain.de/*) ohne Klammern eingebe, dass er mir die komplette Domain inkl. Subdomains NICHT crawlt?
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Orbiter » Di Feb 22, 2011 2:40 pm

zu 1) kann ich nichts empfehlen, da muss die zwischen Möglichkeiten und Ansprüchen abwägen. Wenn wir hier FAST ESP einsetzen würden, dann müsste ich dir hier zu 64GB RAM bei 15 Mio Links raten ... Da bist du bei YaCy weit besser dran. Kommt aber auch darauf an wieviele Links im Index sein sollen.

Backliste: dummerweise bezieht sich der * hinten auf eine regex, der vorne nicht. Es muss also heissen:
*.testdomain.de/.*

also mit einem Pünktchen mehr.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Lotus » Di Feb 22, 2011 3:35 pm

Bei 1GB RAM sollte YaCy in Stadardeinstellung (600MB) den Speicher inkl. Betriebssystem nicht voll ausnutzen. Komisch, wenn der Vserver dann den Prozess abschießen würde.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Di Feb 22, 2011 6:29 pm

Blackliste:
Dann sind diese Einträge nicht ganz korrekt? http & www sind wohl generell wegzulassen?
# domain.de/vollerpfad
# domain.de/*
# *.domain.de/*
# *.sub.domain.de/*
# sub.domain.*/*
# domain.*/*


Ich werd mal verschiedene Listen vom Crawler testen und auf beiden Systemen mal schaun, wie die Ergebnisse aussehen. Ich denke aber bei 1000 Domains werden es mehr als 1 Mio. Links werden.

EDIT:
Gebt mir doch mal noch einen Erfahrungs-Tipp! Aller wieviel Tage lasst ihr Eure Crawler wieder neu starten?

Ich danke Euch für die schnelle Hilfe und melde mich wenn es dazu was Neues gibt.
Alles andere könnt ihr wie gewohnt hier nachlesen: http://www.loopilino.com/news.php?readmore=1
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Quix0r » Di Feb 22, 2011 7:22 pm

Wie oft man einen Crawl neustarten sollte, haengt ganz davon ab, a) wie schnell sich die Inhalte aendern (Forum vs. "Hauptseite"), b) wie dem entsprechend aktuell die Suchergebnisse sein sollen und auch c) wie viel Traffic/CPU-Last das verursache soll.

Bitte bei letzteres nicht falsch verstehen: YaCy ist schon sehr zurueckhaltend. "Kostet" es halt mehr Resourcen (CPU/IO) wenn der Crawler jede Stunde vorbeikommt und eigentlich nichts neues findet, da sich die Inhalt nicht so schnell aendern.

So viel zur Theorie. :) Im prakischen heisst das, bei meinem Server habe ich 7 Tage fuer "Hauptseiten" (mit allen Unter-Domains) plus nochmal zusaetzlich 1x taeglich die RSS-Feeds von den Foren, Wikis.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Di Feb 22, 2011 7:37 pm

Danke Quix0r!

Hier im Forum könnte ich mir sehr kurze Zeiten vorstellen. Nun, wir bewegen uns ja auf Kinderwebseiten und ich denke das da 7 Tage vielleicht auch schon zu kurz sind. Da reichen doch bestimmt 14 Tage aus, oder was meint ihr?
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Orbiter » Di Feb 22, 2011 8:52 pm

man kann etwas/viel (kommt drauf an) traffic sparen wenn man mit wem Parameter "Policy for usage of Web Cache" auf der /CrawlStartExpert_p.html Seite arbeitet: es ist damit sogar möglich aus dem Cache heraus zu crawlen (= 0 Traffic) oder eben nur ein bisschen mehr ('if fresh') was dann die Logik des Proxy mit den cache fresh/cache stale rules nutzen würde. Das kann dazu führen dass trotzdem alles neu gecrawlt wird wenn der zugegriffene Server behauptet die Seiten wären alle ganz neu (viele CMS machen das) oder eben auch nicht.

Ansonsten würde ich folgende Strategie fahren: fast alle Webseiten habe statische Seiten die sich selten ändern. Alle sich schnell ändernden Seiten haben meistens auch einen RSS feed der darüber informiert. Also pro Domäne 2 Crawls:
- einen sehr langsamen für die ganze site
- einen recht häufigen der den RSS feed reader benutzt um die Seiten zu lesen (/Load_RSS_p.html )

so macht es der Indexierer für dieses Forum, das Wiki und die Home page (jedenfalls als ich das noch betrieben habe, macht jetzt ja Vega)

Die rss feeds findet YaCy übrigens automatisch: sobald alle Seiten einmal gecrawlt sind listet /Load_RSS_p.html alle feeds auf die gefunden wurden. Die muss man dann nur noch alle selektieren und den Import zusammen mit dem Scheduler aktivieren.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Do Feb 24, 2011 1:10 pm

Blind?

Eine Url zu crawlen (Beispiel http://www.die-geobine.de) und dann Filter benutzen (auf URL beschränken): *.die-geobine.de/.* scheint zu funktionieren, auch wenn in der Crawler-Übersicht andere URLs zu sehen sind.

Mein Frage: Wie macht man das aber mit einer Liste (Datei)?
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Sa Feb 26, 2011 7:53 pm

Irgend etwas mache ich verkehrt!
___________
Ich habe eine Blackliste angelegt im Sinne von *.testdomain.de/.* Gebe ich nun bei der Indexerstellung eine Datei mit mehreren Urls in Form http://www.testdomain.at
http://www.testdomain.ch
http://www.testdomain.com
werden diese vom Crawler aufgenommen und die geblockten Domains testdomain.de einfach durchgelassen, weil diese von den anderen Domains verlinkt ist. Nehme ich aber eine einzelne Domaine und klicke "auf URL beschränken: *.testdomain.at/.* scheint das zu funktionieren. Das würde für mich dann tatsächlich bedeuten alle 1000 Domains einzeln einzutragen, da die Liste jede andere nicht gewollte Domain mit nimmt. Und da sind Dinger dabei, das geht gar nicht.
___________
Gibt es eine unkomplizierte Möglichkeit, eine nicht gewollte Domain (testdomain.de) aus dem Server total raus zu löschen?
___________
Ich habe einen neuen Server aufgestellt (anderes Installationsverzeichnis) und habe den Ordner DATA dort komplett eingefügt, die Konfiguration an den Server angepasst und anschließend eine Suchabfrage gestartet. Ergebnis: Null. Muss da noch was anderes geändert werden?
___________
Ich arbeite derzeit an 2 Server im Testbereich. Gibt es eine Möglichkeit eine Art eigenes Peer zu erstellen?
___________

Entweder habe ich ein tierisches Brett vorm Kopp und seh die Einstellungen nicht oder es geht nicht. Wäre nett, wenn mir mal einer auf die Sprünge helfen könnte.

Liebe Grüße aus Leipzig
André
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Copro » So Feb 27, 2011 12:44 pm

Also wenn der Crawler URLs von Domains oder Filtern Deiner Blacklisten oder Sperrlisten übernimmt ist das ein Fehler - dafür richtet man die ja ein.
Kontrolliere bitte auf http://localhost:8080/Blacklist_p.html, ob auch der crawler aktiviert ist für diese Liste. Wenn neben dem crawler die Checkbox nicht aktiviert ist verwendet der Prozess der für das Crawlen der Webseiten zuständig ist diese Sperrliste nicht.

Unter http://localhost:8080/IndexControlURLs_p.html der URL References Database kann man z.B. eine Liste der Top 100 Domains anfertigen und dann z.B. ganz einfach eine gewünschte Domain aus dem Index entfernen - wenn doch etwas indexiert wurde was man so nicht wollte. Generell findet Du so ziemlich alles für die Verwaltung des Indexes unter Indexverwaltung ;-]

Das komplette Klonen einer YaCy Instanz durch Kopieren des DATA Ordners habe ich so noch nie probiert. Ich übernehme meistens nur die Konfiguration unter DATA/SETTINGS für meine Test Peers und verwerfe die schon gesammelten restlichen Ergebnisse.
Sollte aber rein theoretisch funktionieren wenn YaCy den Index ohne Referenzen auf die Konfiguration aufbaut - gibt das Server Log irgendwelche aufschlussreichen Fehlermeldungen beim Start ?
Vielleicht kann hier Orbiter oder ein Entwickler was dazu sagen - da könnte ich auch falsch liegen.

Mit dem Aufsetzen eines Testservers hast Du bereits ein Peer geschaffen. Was Du meinst ist vermutlich ein eigenes Netzwerk innerhalb von YaCy das unabhängig antwortet. Ich nehme an Du möchtest auch keine Antworten von anderen Peers auf die Suchanfragen bekommen die über Dein Netzwerk gesendet werden - aber eventuell sollen andere von Deinem Index profitieren.
Ich vermute also die gewünschte Konfiguration soll ein öffentlicher Cluster sein - der hier unter http://localhost:8080/ConfigNetwork_p.html konfiguriert werden kann.
Die Auswahl Robinson Peer macht Deine Rechner unabhängig vom restlichen "böse URLs" Freeworld Netzwerk - aber Du kannst wenn Du möchtest Zugriff von außen erlauben.
Die Auswahl "Öffentlicher Cluster" sollte alle aufgesetzten Rechner bündeln und als Such Cluster funktionieren lassen.
Ihr Peer ist Teil eines öffentlichen Clusters innerhalb des YaCy-Netzwerkes.
Indexdaten werden nicht verteilt, aber Remote Crawl-Anfragen werden verteilt und akzeptiert
Suchanfragen werden über alle Peers des Clusters verteilt und von allen Peers des Clusters beantwortet.

Trage dazu alle Deine Peers in die erste Zeile ein in der Form: loopilino1.yacy,loopilino2.yacy,loopilinoN.yacy (Ich habe die peernamen einfach mal erfunden)
Damit ist die wichtige Konfiguration für den Cluster abgeschlossen.

Dann kann man noch spezielle Peer-Tags verwenden die für den Zugriff auf Dein Suchnetzwerk von außen wichtig sind - hier z.B. Kinder,Kids,kindersicher,Kindersicherung,etc...
Möchtest Du unter für alle Suchanfragen von außen verantwortlich sein und antworten (unter der Voraussetzung dass das Cluster überhaupt auch im Freeworld Netzwerk zur Verfügung stehen soll) dann kannst Du dort auch "Alles" - also * stehen lassen.

Die letzte Frage beantworte ich auch mit dem was die Erklärung der Option hergibt bzw. wie ich sie übersetzt habe ;-) und daher ohne Gewähr - da kann sicher Orbiter ein besseres Statement dazu abgeben. Vielleicht kannst Du aber auch nochmals genauer beschreiben ob der Verbund aus Rechner isoliert nur einen Index anhand der ausgewählte Listen erstellen soll - denn das wäre genau die Konfiguration die auch das sciencenet Netzwerk vom Liebel-Lab am KIT betreibt und auch eine eigene YaCy Version zum Download anbietet: http://sciencenet.kit.edu/Download
Zuletzt geändert von Copro am So Feb 27, 2011 10:18 pm, insgesamt 1-mal geändert.
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » So Feb 27, 2011 2:50 pm

Hallo Copro!
Vielen Dank für die sehr umfangreiche Beschreibung. Ich werde die derzeitig eingegeben Aufträge von den Crawlern jetzt ersta mal abarbeiten lassen, einen klassischen Neustart hinlegen und anschließend deine Informationen testen/umsetzen. Ich meld mich dazu wieder, wenn ich (bzw. die Crawler) so weit bin.

P. S.:
Blacklist_p.html - Liste ist freigegeben!
IndexControlURLs_p.html - klappt wunderbar, danke
Server - ja, nur diese (unsere) Server sollen miteinander kommunizieren (Gedanken: Lastverteilung/Ausfallsicherheit/Backup)
http://sciencenet.kit.edu - mein englisch ist gleich null, mal sehen was der Übersetzer sagt ;)
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Mo Feb 28, 2011 8:37 pm

Kurze Rückmeldung zum Thema Absturtz Crawler:
Habe in der yacy.conf an XMX, XMS auf dem V-Server nix verändert. Der Crawler läuft jetzt seit 4 Tagen Tagen durchweg. Bleibe an "Ursachenforschung" dran, insofern ich was erkennen kann. Ist mir derzeit ein Rätsel.
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Copro » Di Mär 01, 2011 11:30 pm

Wenn es der oder die Abstürze aus dem Beitrag hier sind: viewtopic.php?f=5&t=3123&p=22110#p21997
Sichere doch auf jeden Fall die DATA/LOG/yacy00.log nach so einem Crash oder am Besten das ganze Verzeichnis LOG damit man später drin wühlen kann.
Im YaCy Programmverzeichnis findest Du meistens auch eine hs_err_pid123456.log die mit der Angabe der Prozess ID (123456 im Beispiel) unter der die JRE YaCy ausgeführt hat gecrasht ist.
Bei mir war es dann letztendlich ein defekter RAM Riegel der meine unregelmäßigen Crashes verursacht hat - hier meine Report: [Closed] Java EXCEPTION_ACCESS_VIOLATION crash WinXP
Aber ich denke bei einem V-Server trifft das wohl eher nicht zu.
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Sa Mär 05, 2011 10:13 am

Was kann ich tun? Ich habe foldendes Problem:
EDIT:
Sorry. Nachdem ich die selbe URL nochmals gecrawlt habe, ist die Fehlermeldung weg.
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Mi Mär 09, 2011 8:23 pm

Heute wieder kurze Zwischenstandsmeldung
- YaCy:
Es macht bei allen kleineren Problemchen immer mehr Spass, umso tiefer man darin eintaucht. Ein echt geniales Werkzeug!

- Index-Erzeugung:
Mein Problem bei der Eingabe in Form einer Liste (txt - Datei) war, dass der Filter "Auf Startdomain beschränken" nicht funktionierte. Mit der Eingabe von einzelnen Domains klappte das.
Entzückt hat mich dann der Lösungsvorschlag über eine HTML-Datei, welche ich auf eine andere URL gelegt und mit .htaccess geschützt habe. Bis auf 2 "Querschläger" (warum auch immer) funktionierte damit auch der Punkt "Auf Startdomain beschränken". Super Sache.
Mit dem Hinweis von Orbiter auf Patch SVN 7574 werde ich dies jetzt in Dateiform abprüfen und Euch den Erfolg melden. :)

Stand Crawler:
- Virtueller Server
Daten via HTML-Datei (nach Alphabet - pro Buchstabe eine HTML-Seite) 5 Stück eingegeben und vorher Leistung reduziert. Kackt jetzt wieder permanent ab.
URL: http://www.loopilino.com/viewpage.php?page_id=1

Batch dazu im Taskmanager stündlich eingestellt
Code: Alles auswählen
@echo off
call stopYACY.bat
call startYACY.bat

Werde dazu neue Batch basteln, welche den Prozess "javaw.exe" kontrolliert und bei Absturz die "startYACY.bat" neu startet. Wenn sie funktioniert, werde ich sie hier natürlich veröffentlichen.
Stand 430 Domains erfasst mit 173.968 URL-Referenzen - Crawlertiefe 5

- privater Server
Auf dem Server habe ich die Komplettliste mit über 1200 Domains eingegeben. Der arbeitet jetzt seit 2 Tagen durchweg.
Stand 478 Domains erfasst mit 31.405 URL-Referenzen - Crawlertiefe 5
URL: http://www.loopilino.com/viewpage.php?page_id=20

kleine Wunschliste:
- Zeitlich genau definierbare Wiederholung (nicht alle x Tage, sondern Datum/Uhrzeit)
- einzelne Ab-/Zuschaltbarkeit der Domain- & Autoren-Navigatoren
- bei der Bilder-, Audio- & Videosuche werden zu viele (64) Dateien angezeigt (das ist zu lang)

Hinweis:
Löschst Du die erzeugte robots.txt Tabelle gibts Fehlermeldung in der CrawlProfileEditor_p.html. Der geht erst wieder weg, wenn man den Crawl dieser Domain wieder neu eingibt und startet.

Google jetzt nur mal am Rande:
Unsere alte Suchmaschine für Kids auf loopilino.de basiert ja noch auf der "benutzerdefinierten Suche" von Google. Weitere Domains können wir seit kurzer Zeit nicht mehr hinzufügen. Google-Supportseite "Was kann ich tun, wenn ich eine Suchfunktion für mehr als 100.000 Seiten bereitstellen muss?" Man wird jetzt zur Kasse gebeten.
Ich brauch das nicht überschlagen. Wir kommen bei unserer "benutzerdefinierten Suche" auf loopilino.de auf über 20 Mio. Seiten.
Die Kontakte zu Google Deutschland und dem Herrn Keuschel (Pressesprecher) wurden abgebrochen.
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Quix0r » Mi Mär 09, 2011 9:06 pm

Ich habe mal den Suchbegriff "kuh" testweise eingegeben. Dabei entsteht durch die ueberlange Domain http://www.nachrichtenfuerkinder.de ein horizontaler Scrollbalken + noch einer ganz unten. Der Screenshot zeigt beide Balken, ist Firefox 3.5.16.

Edit: Den Scrollbalken im Navigator habe ich wegbekommen (mit Firebug), indem ich die Breite von 220px auf 230px erhoeht habe. Der aeussere Scrollbalken (der untere) entsteht durch die Wortwolke oberhalb der zwei Navigatoren. Ich habe mal den Suchbegriff "willkommen" einfach rausgeloescht (genauer den li-Tag), was ja mit Firebug geht. Und siehe da: Der Scrollbalken wird kuerzer. :)
Dateianhänge
screenshot-20110309_2104.png
Horizontale Scrollbalken
screenshot-20110309_2104.png (88.81 KiB) 5616-mal betrachtet
Zuletzt geändert von Quix0r am Mi Mär 09, 2011 9:20 pm, insgesamt 1-mal geändert.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Mi Mär 09, 2011 9:19 pm

Danke für die Bestätigung mit dem Scrollbalken. Jetzt weiß ich endlich warum der kommt. Ein extra Addon kann aber nicht die Lösung sein. Besonders nicht für Kinder. Weiterhin finde ich es nicht ganz so toll kommerziellen Anbietern dadurch unsere mühsehlig manuell geprüften Kinder-Domains/URLs (auf Whitelistbasis) so einfach an den Hals zu werfen. Daher auch meine kleine Wunschliste. :)
- einzelne Ab-/Zuschaltbarkeit der Domain- & Autoren-Navigatoren

Vielleicht kann man das auch zahlenmäßig einstellen (z. B. von 0-20).
Design:
Und wenn noch 2 Zeilenumbrüche nach dem letzten Seiteneintrag kämme (vor den grünen Zahlenlinks), wär das mehr als toll. :)
Zuletzt geändert von Andre am Mi Mär 09, 2011 9:33 pm, insgesamt 1-mal geändert.
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Orbiter » Mi Mär 09, 2011 9:29 pm

die navigatoren kann man einzeln ein- und ausschalten. Welche willst du denn behalten?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Mi Mär 09, 2011 9:36 pm

Hallo Orbiter!
Eigentlich keinen. Würde da lieber irgend welche "Klicktipps" für die Kids manuell integrieren. Ab- und Zuschaltbar wären echt eine super Sache. :)
Die Autoren machen bei den Kids keinen Sinn und werden von den Webmastern kaum beachtet. Den anderen (Domain) habe ich oben (nachträglich - editiert) erklärt.
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Orbiter » Mi Mär 09, 2011 10:38 pm

die Query url hat eine Property 'nav', da steht per default 'nav=all'. Wenn du keine Navigatoren haben willst, must du einfach eine Query mit 'nav=' (also leer) benutzen.
Ah mist ich sehe schon das sollte konfigurierbar sein..
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Do Mär 10, 2011 12:30 am

Orbiter hat geschrieben:Ah mist ich sehe schon das sollte konfigurierbar sein..

Das wär ne echt coole Sache, bestimmt nicht nur für mich "Klicker". :lol:
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Vega » Do Mär 10, 2011 2:31 pm

@Andre - Stabilität der VM - welches Betriebsystem verwendet Ihr in der VM ? - also 32 oder 64 bit ?

Welche Ausgabe bringt ein beherztes "java - version" an der Kommandozeile ?

Gruss,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Hilfeschrei Projekt "Suchmaschine für Kids"

Beitragvon Andre » Do Mär 10, 2011 7:17 pm

Hallo Thomas,

der Server ist ein Windows Server 2003 R2 Datacenter 64bit und ein beherztes "java -version" (Leerzeichen beachten) sagt
Code: Alles auswählen
java version "1.6.0_24"
Java(TM) SE Runtime Environment (build 1.6.0_24-b07)
Java HotSpot(TM) 64-Bit Server VM (build 19.1-b02, mixed mode)


Jetzt abgeändert:
Eingestellt in YaCy ist jetzt 350 MB und die javaw.exe (Priorität "unter normal") marschiert dennoch teilweise auf 450 MB hoch. Die Gesamtauslastung liegt jetzt bei rund 730 / 1024 MB.
Die CPU-Leistung ist im Schnitt bei unerheblichen 2%.

Im Moment läuft die Yacy ohne Absturz. Das könnte sich aber bestimmt mit mehreren Suchvorgängen ändern da ich festgestellt habe, das ein Suchvorgang ca. 8 MB ausmacht.
Andre
 
Beiträge: 38
Registriert: Sa Jan 22, 2011 7:13 pm

Nächste

Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 2 Gäste