Sitemaps und API

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Sitemaps und API

Beitragvon kilian » Do Jan 16, 2014 5:10 pm

1. Werden XML-Sitemaps unterstützt? So wie bei http://sitemaps.org/ ? Bei CrawlStartExpert kann man Sitemaps nicht auswählen, wird das erst klickbar, wenn man eine Seite mit einer Sitemap eingiebt, die auch in der robots.txt verlinkt ist?

2. Welche API nimm ich her um YaCy-Suchergebnisse+Snippets von Typo3 abzufragen? Ich hab irgendetwas von Google Search Appliance API gelesen, da hab ich Typo3-Plugins gefunden. Opensearch gibt es glaub ich ja auch, da gibt es ebenso ein Typo3-Plugin.

3. Werden Snippets im Search-Portal-Modus gecached, oder muss YaCy da auch alle in Frage kommenden Dokumente neu aufrufen (wie im DHT-Modus)

4. Die Forum-Suche geht hier nicht.

5. YaCy wird vermutlich bald in der Fachschaft Maschinenbau München eingesetzt.
kilian
 
Beiträge: 79
Registriert: Mi Feb 23, 2011 11:34 am
Wohnort: Bayern

Re: Sitemaps und API

Beitragvon Low012 » Fr Jan 17, 2014 9:12 am

Eher Anmerkungen als Antworten:

zu 1: Man müsste auch die Sitemap direkt als URL angeben können. Allerdings muss man halt irgendwoher wissen, wo die liegt.

zu 2: Meinst du mit dem Opensearch-Plugin http://typo3.org/extensions/repository/view/opensearch? Das stammt von jemandem aus der YaCy-Community, wir aber wohl nicht mehr gepflegt. Keine Ahnung, ob es noch korrekt funktioniert.

zu 4: Ich glaube, die läuft auf einem Peer, den Orbiter verwaltet. Ich benutze nicht das Standard-Theme des Forums und da ist der Link zur Suche nicht durch die YaCy-Suche ersetzt, sondern zeigt noch auf die phpBB-Suche: http://forum.yacy-websuche.de/search.php (Keine Ahnung, ob das auch mit dem Standard-Theme funktioniert.)

zu 5: Yaaaay!
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Sitemaps und API

Beitragvon kilian » Mi Jan 22, 2014 2:06 pm

Noch eine zusätzliche Frage: Kann ich irgendwie localhost crawlen? Bekomme immer die Meldung
Code: Alles auswählen
FINAL_LOAD_CONTEXT denied_(the host 'localhost' is local, but local addresses are not accepted: 127.0.0.1)
kilian
 
Beiträge: 79
Registriert: Mi Feb 23, 2011 11:34 am
Wohnort: Bayern

Re: Sitemaps und API

Beitragvon Orbiter » Mi Jan 22, 2014 2:51 pm

du musst dafür in /ConfigBasic.html in den Intranet-Modus schalten.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sitemaps und API

Beitragvon kilian » Di Jan 28, 2014 11:22 am

Vielen Dank! Sind im Intranet-Modus die DDoS-Sicherungen aktiv? Bei einem Crawl geht im Moment die CPU-Auslastung auf dem Serve ganz schön hoch. Ist aber nicht so schlimm.

Kann man beim Indexieren, oder mithilfe eines Suchfilters sich auf ein bestimmtes Objekt im DOM-Modell beschränken.
Ich will, dass nur alles innerhalb der ID "content-main" in den Suchergebnissen erscheint und nicht z.B. auch das Menü. Apache Nutch kann das soviel ich weiß. Hab bereits gesucht danach, aber nicht wirklich was gefunden.
contentdom=content-main ist glaub ich nicht genau das was ich will.

Alternativ, würde es auch reichen, bei den Snippets mich auf das content-element beschränken zu können.
kilian
 
Beiträge: 79
Registriert: Mi Feb 23, 2011 11:34 am
Wohnort: Bayern

Re: Sitemaps und API

Beitragvon Orbiter » Di Jan 28, 2014 11:44 am

kilian hat geschrieben:Sind im Intranet-Modus die DDoS-Sicherungen aktiv? Bei einem Crawl geht im Moment die CPU-Auslastung auf dem Serve ganz schön hoch.

Das ist Absicht, denn es ist ja umgekehrt: im Internet-Modus gibts massiv angezogene Bremsen, die im Intranet weg sind. Das ist meistens gewünscht. Wenn nicht, kannst du im Crawler_p.html Servlet selber die Bremse anziehen. Im Intranet ist meistens der Webseitenbetreiber identisch oder in einer Verantwortungshierarchie mit dem YaCy-Peerbetreiber, d.h. sie können sich hier absprechen was sie wollen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sitemaps und API

Beitragvon kilian » Di Jan 28, 2014 4:28 pm

Noch eine zusätzliche Frage ;-) (wird glaub ich hier ein riesen Feature-Request-Thema):
Gibt es irgendeine Möglichkeit zur Wildcard-Suche. Meine bisherigen Recherchen haben ergeben, dass es (noch) nicht geht.
Eine Suche nach Konzerte liefert mir keine Ergebnisse, eine Suche nach Benefizkonzerte aber schon. Man muss auch ausdrücklich das Wort im Plural suchen. Das ist nicht so schön.
*konzert* bringt nichts.
kilian
 
Beiträge: 79
Registriert: Mi Feb 23, 2011 11:34 am
Wohnort: Bayern

Re: Sitemaps und API

Beitragvon kilian » Di Jan 28, 2014 4:29 pm

Einen Prototypen der Seite gibt es hier zu bestaunen:
http://paddg.fsmb.de/
kilian
 
Beiträge: 79
Registriert: Mi Feb 23, 2011 11:34 am
Wohnort: Bayern

Re: Sitemaps und API

Beitragvon Orbiter » Di Jan 28, 2014 6:06 pm

kilian hat geschrieben:Einen Prototypen der Seite gibt es hier zu bestaunen:
http://paddg.fsmb.de/

cool!
kilian hat geschrieben:Noch eine zusätzliche Frage ;-) (wird glaub ich hier ein riesen Feature-Request-Thema):
Gibt es irgendeine Möglichkeit zur Wildcard-Suche. Meine bisherigen Recherchen haben ergeben, dass es (noch) nicht geht.
Eine Suche nach Konzerte liefert mir keine Ergebnisse, eine Suche nach Benefizkonzerte aber schon. Man muss auch ausdrücklich das Wort im Plural suchen. Das ist nicht so schön.
*konzert* bringt nichts.

ja.. ich hab sowas auch beim 30c3 immer im Log gesehen, das jemand ein '*' dranhängt oder davor schreibt. Ich hatte auch noch vor etwas das aufeinanderfolgen von Wörtern zu boosten.
Ich versuche mal das '*' einzubauen, sollte nicht soo schlimm sein, jetzt mit Solr... Aber das geht dann nur für Portale, nicht für p2p Suche!
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron