[closed] Eigenen Server aufsetzen

Ereignisse, Vorschläge und Aktionen

[closed] Eigenen Server aufsetzen

Beitragvon tuxi » So Jul 08, 2007 12:34 pm

Mir gefällt die Idee hinter Yacy sehr gut. Aufmerksam geworden bin ich übrigens durch einen Artikel im "internet intern" von PcPraxis - falls es jemanden interesieren sollte ;-)

Nun meine Frage:

Ich würde sehr gerne Yacy auf einem dedicated root installieren ( Suse 9.1 drauf), um nur ausgewählte seiten ( unter anderem meine eigenen *g*) regelmäßig zu indexieren. Ich möchte keine Anfragen von anderen Peers bekommen.

Wäre sowas machbar und vertretbar ?, also im Sinne der Entwickler/ Euch ?

Außerdem habe ich gesehen das in den Suchergebnisen eine Domain mit allen unterseiten zusammengefast wird. an sich ja eine gute Idee, aber wie kann ich einzelne Unserseiten auch anzeigen lassen?

Das ganze soll eine lokale Suche ermöglichen + mehrere Ausgesuchter seiten von mir, mehr nicht. ( zumal der root nicht grade eine Rakete ist...)

Ich freue mich auf Äußerungen. Tuxi
tuxi
 
Beiträge: 13
Registriert: Mi Jul 04, 2007 3:23 pm

Re: Eigenen Server aufsetzen

Beitragvon Lotus » So Jul 08, 2007 12:42 pm

Erst einmal willkommen!

Du kannst nur eine Sache machen, oder mehrere Peers betreiben.

Für lokale Seiten gibt es den Robinson-Modus. Dein Peer arbeitet eigenständig, und tauscht sich nicht mit anderen Peers aus.

Für ersteres musst du Abstriche hinnehmen. DHT(-Index)-Empfang ausschalten, verteilung aktivieren und remote Crawls verweigern.
Nun verteilst du deine indexierten Seiten in das Netz. Wenn du jedoch deinen Peer offline nimmst, sind Teile des Index nicht mehr vorhanden, da dein Peer auch einen Teil abspeichert. Eigene Suchanfragen an das Netz sind mit dieser Konfiguration auch nicht möglich.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Eigenen Server aufsetzen

Beitragvon Low012 » So Jul 08, 2007 1:32 pm

tuxi hat geschrieben:Wäre sowas machbar und vertretbar ?, also im Sinne der Entwickler/ Euch ?


Die Nutzung von YaCy als Suchmaschine nur für eine Domain ist zwar ursprünglich vielleicht (das weiß ich gar nicht) nicht vorgesehen gewesen, aber es schadet je auf keinen Fall der globalen Suche. Die Suche auf http://www.linuxtag.org ist auch mit YaCy realisiert. Wenn noch erkennbar ist, dass die Suchfunktion von YaCy kommt, kann eine solche lokale Suche ja auch durchaus Werbung für das Projekt sein. Und selbst wenn es nicht erkennbar sein sollte, ist ja jeder Benutzer auch ein Tester und erzählt eventuell auch anderen von seinen (hoffentlich positiven) Erfahrungen mit YaCy. Also keine Bedenken und wenn es Probleme oder Fragen gibt, einfach hier im Forum fragen!
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Eigenen Server aufsetzen

Beitragvon Huppi » So Jul 08, 2007 9:58 pm

Auf http://www.kaskelix.de sind derzeit drei Peers verlinkt, die sich einer spezialisierten Themensuche widmen und als Robinson laufen: Linuxtag, freie Literatur, Motorrad.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Eigenen Server aufsetzen

Beitragvon Orbiter » So Jul 08, 2007 10:17 pm

tuxi hat geschrieben:nur ausgewählte seiten ( unter anderem meine eigenen *g*) regelmäßig zu indexieren. Ich möchte keine Anfragen von anderen Peers bekommen.

kein Problem, in http://localhost:8080/ConfigNetwork_p.html einfach auf Robinson Mode setzten. Die zusätzlichen Optionen sind dort auch erklärt. Regelmäßige Indexierugen gibts noch nicht, dazu musst du die 'recrawl'-Option nutzen und ggf ein cronjob aufsetzten der per wget die crawl-Start Seite zieht.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Eigenen Server aufsetzen

Beitragvon tuxi » Sa Jul 21, 2007 1:06 pm

Die Suche auf http://www.linuxtag.org ist auch mit YaCy realisiert.


Wie haben die das den Konkret gemacht ? Also das die einzelnen Seiten auch einzeln durchgesucht und angezeigt werden.
Außerdem würde mich interesieren wie die das Suchfeld so weit verändert haben *g* Es läßt sich ja schwer erkennen das Yacy dahinter ist ( bei der eingabe) wenn es nicht grade da stehen würde :mrgreen:

Also, Zunächst möchte ich NUR meine Lokale Seiten indexieren.
Dazu hab ich ein paar fragen:

Neben diesem Robinson modus, was muss ich noch einstellen, damit die ergebnisse so wie bei Linuxtag angezeigt werden und wo ?

In welcher Datei muss ich die eingabe maske anpassen oder muss ich eine eigene "bauen"

Wie verhält sich Yacy mit Dynamischen URLS ?
sind für ihn auch welche Dynamisch die mit einem Semikolon die Parameter übergeben ?
index.htm?para1=1;para2=2... ?

Wie setze ich einen Cornjob auf, der mir regelmäßig, sagen wir, alle 2 Tage, alle Seiten durchjagt?

Ist es möglich als Startpunkt "localhost" zu setzen, wenn der Yacy Server und der Webserver auf der gleichen maschiene laufen, um ein schnelleres und Trafficsparendes Indexieren zu ermöglichen ? Falls ja, wie kann ich solch einen Crawl starten?

Ich freue mich auf resonanz - und danke für die Begrüßung. Liebe Grüße aus dem Norden :)
tuxi
 
Beiträge: 13
Registriert: Mi Jul 04, 2007 3:23 pm

Re: Eigenen Server aufsetzen

Beitragvon Low012 » So Jul 22, 2007 8:34 pm

Die Suche für die Linuxtag-Seite hat Orbiter letztes Jahr gebaut, als YaCy das erste Mal beim Linuxtag dabei war und er bemerkt hat, dass die Seite keine Suchfunktion hat. Der Index liegt auf einem Server, den Orbiter gemietet hat. Ich denke, dass er den Linuxtag-Leuten lediglich den HTML-Schnipsel für das Suchformular geschickt hat, das die dann eingebaut haben.

Den Code dafür kann man fast 1:1 aus http://localhost:8080/index.html übernehmen (im Quellcode einfach nach ganz unten scrollen).

Code: Alles auswählen
    <form class="search" action="yacysearch.html" method="get" id="searchform" accept-charset="UTF-8">
      <fieldset class="maininput">
        <input type="hidden" name="display" value="0" />
        <input name="search" id="search" type="text" size="52" maxlength="80" value="" />
        <input type="submit" name="Enter" value="Search" />
        <input type="hidden" name="former" value="" /><br />
        <input type="radio" id="text" name="contentdom" value="text" checked="checked" /><label for="text">Text</label>&nbsp;&nbsp;
        <input type="radio" id="image" name="contentdom" value="image"  /><label for="image">Images</label>&nbsp;&nbsp;
        <input type="radio" id="audio" name="contentdom" value="audio"  /><label for="audio">Audio</label>&nbsp;&nbsp;
        <input type="radio" id="video" name="contentdom" value="video"  /><label for="video">Video</label>&nbsp;&nbsp;
        <input type="radio" id="app" name="contentdom" value="app"  /><label for="app">Applications</label>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
      <!-- default values are hard-coded
        <input type="hidden" name="count" value="10" />
        <input type="hidden" name="resource" value="global" />
        <input type="hidden" name="time" value="6" />
        <input type="hidden" name="urlmaskfilter" value=".*" />
        <input type="hidden" name="prefermaskfilter" value="" />
        <input type="hidden" name="indexof" value="off" />-->
      </fieldset>
      <p><a href="/index.html?searchoptions=1&amp;display=0" onclick="this.href='/index.html?searchoptions=1&amp;display=0&amp;former='+document.getElementById('searchform').search.value+'&amp;contentdom='+radioValue(document.getElementById('searchform').contentdom)">more options...</a></p>
     
      <p>This peer holds 11.040.036 URLs</p>
    </form>


Die class="..."-Anweisungen können gelöscht werden.

In action="yacysearch.html" muss vor dem yacysearch.html der Servernameund Port des Peers angegeben werden, der die Anfrage bearbeiten soll, also z.B. action="http://4o4.dyndns.org:8080/yacysearch.html".

Wenn die Auswahl der Suche (Text/Bild/Audio/Video/App) nicht angezeigt werden soll, einfach die entsprechende Zeilen löschen und durch z.B. <input type="hidden" name="contentdom" value="text" /> ersetzen.

Die mit <!-- ... --> aukommentierten Zeilen stellen Defaultwerde dar, die YaCy so sowieso setzt, wenn man keine entsprechenden Werte übergibt. Soll da etwas geändert werden, die Zeilen einfach aus dem Kommentar kopieren, irgendwo innerhalb <form> ... </form> kopieren und den Wert wie gewünscht ändern. Z.B. würden mit <input type="hidden" name="count" value="100" /> 100 statt den üblichen 10 Ergebnissn angezeigt.

Wenn auf dem Peer noch mehr Daten sind als nur die der Seite, für die die Suche da ist, kann man in <input type="hidden" name="urlmaskfilter" value=".*" /> statt ".*" einen Regulären Ausdruck angeben, der die Ergebnisse filtern soll. Ich bin grad nicht ganz sicher, wie so ein Ausdruck assehen müsste. Wenn du das brauchst und auch nicht weißt, was du da eintragen musst, einfach nochmal nachfragen.

Die unteren <p>...</p>-Zeilen können gelöscht werden.

Der so entstandene HTML-Schnipsel kann in eine beliebige HTML-Seite eingefügt werden.

YaCy nimmt an, dass Seiten mit Fragezeichen im URL grundsätzlich dynamisch sind.

Der entsprechende Eintrag, um alle 2 Tage eine Seite zu crawlen, würde in crontab auf meinem System so aussehen:

Code: Alles auswählen
* * */2 * * /usr/bin/wget http://admin:passwort@4o4.dyndns.org:8080/WatchCrawler_p.html?crawlingDepth=99&crawlingFilter=(^|.*\.)domain\.com/.*&crawlingQ=on&localIndexing=on&crawlOrder=off&xsstopw=off&crawlingFile=&crawlingMode=url&crawlingURL=http://www.domain.com&crawlingIfOlderCheck=on&crawlingIfOlderNumber=24&crawlingIfOlderUnit=24hour&crawlingstart=Start+New+Crawl


Da nicht jeder Dahergelaufene einen Crawljob starten können soll, müssen Adminname (Standard: admin) und Passwort übergeben werden. Die Crawltiefe wird auf 99 gesetzt, was sicher stellen soll, dass die ganze Seite erfasst wird. Damit der Crawler nun nicht Amok läuft und das ganze Internet durchsucht, wird durch den regulären Ausdruck (^|.*\.)domain\.com/ der Auftrag auf alle Seiten der Domain domain.com eingeschränkt. Außerdem wird angegeben, dass auf der Seite http://www.domain.com mit dem Crawlen angefangen werden soll. Der Rest der Werte sollte so OK sein, wie ich sie angegeben habe. Es kann aber gut sein, dass ich mich irgendwo vertan habe. Den Crawler also am besten vor allem am Anfang etwas im Auge behalten!

Der Startpunkt localhost ist derzeit nicht möglich, da in diesem Fall potentiell auch Inhalte privater Netze in den Index aufgenommen werden könnten, was auf keinen Fall passieren darf, weil dann private Daten an die Öffentlichkeit geraten könnten. Daher verweigert YaCy in allen Fällen, in denen es Hinweise darauf gibt, dass private Daten aufgenommen werden sollen, den Dienst.

So, ist die Verwirrung jetzt komplett? ;)
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Eigenen Server aufsetzen

Beitragvon fekepp » Mo Jul 23, 2007 1:08 pm

(^|.*\.)domain\.com/


-> (^|.*\.)domain\.com/.*

:) oda?
fekepp
 
Beiträge: 99
Registriert: Mi Jun 27, 2007 2:48 pm

Re: Eigenen Server aufsetzen

Beitragvon Low012 » Mo Jul 23, 2007 2:24 pm

Stimmt! Im URL nach dem wget steht es auch korrekt drin, nur in den Text habe ich es dann unvollständig kopiert.

Wenn jemand den Aufruf getestet haben sollte, wäre ich an einer Rückmeldung interessiert, um daraus möglicherweise einen Wikieintrag zu machen, wobei das ja auch eventuell bals unnötig sein könnte: viewtopic.php?t=198
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Eigenen Server aufsetzen

Beitragvon tuxi » Mi Jul 25, 2007 1:30 pm

ich bedanke mich recht herzlich für die ausführliche antwort. das mit dem HTML kram sollte kein Problem darstellen, und der WGET sieht auch interesant aus, auch wenn ich sicherlich die GET parameter mir in ruhe mal durschauen muss.

Meine letzte frage zu diesem Thema wäre, ob es auch möglich ist dieses Forum zu indexiren ? man muss ja angemeldet sein wenn ich das richtig gesehen habe, ist also eine indexierung nicht möglich ?

dabei fällt mir auf http://dcr_eu.yacy da fehlt doch irgendeine endung oder ? :mrgreen: http://discollection-radio.eu:8080/Status.html

Nunden, man hört sich :ugeek:

ach doch noch eine sache *lach*

wie kann ich den cromjob dann wieder raushauen ? würde ganz gerne noch für unsere admins ein kleines tool für yacy schreiben.

so das sie einstellen können, welche domain indexiert werden soll und ALLE X Tage. das X soll aber anpassbar sein. So ist es ja statisch. ich meine mich zu erinnern das wenn man einen cronjob so reinsetzt, das dieser dann nicht so einfach wieder geändert / gelöscht werden kann.

Tuxi
tuxi
 
Beiträge: 13
Registriert: Mi Jul 04, 2007 3:23 pm

Re: Eigenen Server aufsetzen

Beitragvon miTreD » Mi Jul 25, 2007 1:50 pm

tuxi hat geschrieben:dabei fällt mir auf http://dcr_eu.yacy da fehlt doch irgendeine endung oder ?
.yacy ist eine YaCy-interne Domain. Wenn Du die über den YaCy-Proxy aufruft wird sie auch aufgelöst und Du landest auf dem entsprechenden Peer.
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: Eigenen Server aufsetzen

Beitragvon Low012 » Mi Jul 25, 2007 2:06 pm

tuxi hat geschrieben:Meine letzte frage zu diesem Thema wäre, ob es auch möglich ist dieses Forum zu indexiren ? man muss ja angemeldet sein wenn ich das richtig gesehen habe, ist also eine indexierung nicht möglich ?

Richtig, die Bereiche dieses Forums, die öffentlich zugänglich sind, können auch von YaCys Crawler indexiert werden. Wenn es nichtöffentliche Bereiche gibt (weiß ich jetzt gar nicht, war so lange nicht mehr ausgeloggt ;)), dann werden die nicht aufgenommen. Das ist aber bei anderen Suchmaschinen aber auch nicht anders.

dabei fällt mir auf http://dcr_eu.yacy da fehlt doch irgendeine endung oder ?

Wenn ich da jetzt nichts übersehe, eigentlich nicht. Wenn du über YaCy als Proxy surfst, kannst du Seiten mit der Domain .yacy ansurfen. Mein Peer hat z.B. http://4o4.yacy als Domain. Das ist Teil der Idee der Informationsfreiheit, auf der YaCy aufbaut. Es geht ja nicht nur um die Suchmaschine, die zwar die "Hauptattraktion" ist, aber es gibt ja auch noch die Möglichkeit, Webseiten zu hinterlegen oder Blog und Wiki zu nutzen. Das alles soll dazu dienen, es Menschen zu ermöglichen, möglichst unabhängig von iregndwelchen Firmen oder Organisiationen Informationen zu hinterlegen, so lange sie nur einen Rechner mit Internetzugang haben. Mit den .yacy-Domains verfügt YaCy über ein unabhängiges System, um Inhalte auf einfache Art und Weise wieder zu finden.

wie kann ich den cromjob dann wieder raushauen ? würde ganz gerne noch für unsere admins ein kleines tool für yacy schreiben.

so das sie einstellen können, welche domain indexiert werden soll und ALLE X Tage. das X soll aber anpassbar sein. So ist es ja statisch. ich meine mich zu erinnern das wenn man einen cronjob so reinsetzt, das dieser dann nicht so einfach wieder geändert / gelöscht werden kann.

Eigentlich sollte sich nach der Eingabe crontab -e der Editor vi mit der Liste von cron-Aufträgen des aktuellen Benutzers öffnen und kann dort (wenn man mit vi klar kommt) bearbeitet werden. Die entsprechende Datei befindet sich gewöhnlich in /var/spool/cron und trägt den Namen des jeweiligen Benutzers. Zugriff darauf hat aber nur root. Wie man ohne root-Rechte programmgesteuert seine cronjobs bearbeiten kann, weiß ich spontan nicht.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Eigenen Server aufsetzen

Beitragvon tuxi » Mi Jul 25, 2007 3:31 pm

Das Vbulletin hat eine schöne archiv funktion die auch für suchmaschienen gemacht wurde. Gibt es sowas auch bei diesem Forum ? Falls nein, schade :mrgreen:

ich dachte zuerst das es sowas wie http://DEINNAME.yacy.com also eine art umleitung zusätzlich, einfach um 1. diesen port wegzubekommen und 2. um indirekt nochmal werbung für Yacy zu machen. aber nungut, dann war es ein missverständnis :D

Die Zusätzlichen Feature die noch vorhanden sind werde ich wohl nicht nutzen. Zumindest nicht in diesem Projekt.


Eigentlich sollte sich nach der Eingabe crontab -e der Editor vi mit der Liste von cron-Aufträgen des aktuellen Benutzers öffnen und kann dort (wenn man mit vi klar kommt) bearbeitet werden. Die entsprechende Datei befindet sich gewöhnlich in /var/spool/cron und trägt den Namen des jeweiligen Benutzers. Zugriff darauf hat aber nur root. Wie man ohne root-Rechte programmgesteuert seine cronjobs bearbeiten kann, weiß ich spontan nicht.


Die Arbeit mit vi ist mir bekannt. Ich hab dadrüber ein Backup Skript installiert.
Wenn niemand eine Idee hat zu den Programmgesteuerten cronjobs, werde ich wohl also root eine Zentrale php Datei, nennen wir sie mal cron.php, aufrufen und dann aus der Datenbank auslesen wann die letzte änderung war und dann entsprechend neu indexieren oder halt nicht. Kommt mir auch eher gelegen, da ich noch mehrere Sachen an diese cron.php dranknüpfen wurde, z.B: Inaktive user aus der Datenbank hauen und ein paar aufräumarbeiten und OPTIMIZE TABPLE anweisungen. Falls jemand interesse hat, setzte ich das Skript /verlinkung hier rein unter die GPL ? Nenne ich dann SimpleRemoteRecrawlYacyTool :mrgreen:
tuxi
 
Beiträge: 13
Registriert: Mi Jul 04, 2007 3:23 pm

Re: Eigenen Server aufsetzen

Beitragvon Low012 » Mi Jul 25, 2007 8:01 pm

Ich würde es mir auf jeden Fall einfach aus Interesse mal ansehen! :geek:
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Eigenen Server aufsetzen

Beitragvon tuxi » Do Jul 26, 2007 8:34 pm

Jut, das Thema kann dann erstmal geschlossen werden. Ich melde mich wenn ich was vorzeigen kann. Danke euch allen nochmal für die Hilfe(n).

Tuxi
tuxi
 
Beiträge: 13
Registriert: Mi Jul 04, 2007 3:23 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron