Yacy als Crawler für eigene Seiten

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Yacy als Crawler für eigene Seiten

Beitragvon Eike » Mi Mär 05, 2014 8:28 pm

Hi,

ich bin dabei eine Extension für Typo3 zu schreiben, um Yacy in dem CMS nutzen zu können und zu prüfen ob Yacy ein Ersatz für existierende Lösungen sein kann.
Die Implementierung läuft prototypisch auch schon. Die Suchergebnisse beziehe ich über OpenSearch als rss und parse sie dann.
Ich haben mehrere Domains: domainA.de, domainB.de, etc.
Yacy läuft bei mir auf einem extra Server. Für jede Domain habe ich ein Profil um die Seite zu crawlen angelegt: domainA, domainB, etc.

Ich möchte natürlich auf domainA nicht die Suchergebnisse von domainB haben, gibt es eine Möglichkeit die Ergebnisse per OpenSearch auf ein Profil zu reduzieren, oder brauche ich pro Domain eine Instanz?
In etwa so was:
Code: Alles auswählen
http://suchserver:8090/yacysearch.rss?query=query&profile=domainA&maximumRecords=10

Ziel wäre es nämlich für mehrere domains EINEN Suchserver zu haben. Den ich dann extern benutzen kann.

Danke, Eike
Eike
 
Beiträge: 16
Registriert: Mi Mär 05, 2014 7:51 pm

Re: Yacy als Crawler für eigene Seiten

Beitragvon Orbiter » Fr Mär 07, 2014 3:38 am

Hallo,

YaCy für Typo3 ist ja super!

Für deine Idee mit der Unterteilung des Indexes gibt es konzeptionell zwei Lösungen die teilweise so zur Verfügung stehen:

- Unterteilung in einfache Domänen:
Dafür gibt es ja bereits einen Host-Navigator. Du kannst den Suchbegriff einfach mit 'host:<hostname>' ergänzen, dann wird in der Suche darauf eingegrenzt.

- Unterteilung in Collections:
Du kannst beim Crawl Start jedem Crawl eine oder mehrere Collections zuordnen (Feld ganz unten in CrawlExpert). Wenn du eine Solr Suchanfrage stellst, kannst du mit einem collection_sxt:<collection> dann auf die entsprechende Collection eingrenzen. Weil jeder Crawl aber auch jede Suchanfrage je mehrere Collections benennen kann ist das ganze sehr flexibel.
Problem dabei: Collections können noch nicht in der normalen Suchanfrage angegeben werden. Das baue ich aber gerne dafür ein.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Yacy als Crawler für eigene Seiten

Beitragvon Eike » Fr Mär 07, 2014 2:56 pm

Orbiter hat geschrieben:
- Unterteilung in einfache Domänen:
Dafür gibt es ja bereits einen Host-Navigator. Du kannst den Suchbegriff einfach mit 'host:<hostname>' ergänzen, dann wird in der Suche darauf eingegrenzt.


Das wäre ja schon mal was. Aber wie schaffe ich das per OpenSearch den Host anzugeben?
Code: Alles auswählen
http://localhost:8090/yacysearch.rss?query=query&maximumRecords=10&host=domainA

geht nicht.

Gibt es noch andere Möglichkeiten an Suchergebnisse als Daten zu kommen, außer OpenSearch?

Im Moment hohle ich mir die so:
Code: Alles auswählen
$resultsXml = \TYPO3\CMS\Core\Utility\GeneralUtility::getUrl('http://localhost:8090/yacysearch.rss?query=Test&maximumRecords=10&host=domainA');
Eike
 
Beiträge: 16
Registriert: Mi Mär 05, 2014 7:51 pm

Re: Yacy als Crawler für eigene Seiten

Beitragvon Eike » Sa Mär 08, 2014 10:30 am

Ok, habe es jetzt selber gefunden:

Per OpenSearch geht es wie hier beschrieben:
http://www.yacy-websuche.de/wiki/index. ... Parameters
über site:DomainA

Außerderm gibt es wohl eine PHP API:
http://www.yacy-websuche.de/wiki/index. ... yAPIforPHP
Die aber im Prinzip auch nur OpenSearch benutzt (zumindest für die Suche)
Eike
 
Beiträge: 16
Registriert: Mi Mär 05, 2014 7:51 pm

Re: Yacy als Crawler für eigene Seiten

Beitragvon Eike » Sa Mär 08, 2014 10:51 am

Ich habe aber noch eine andere Frage zur Konfiguration von YaCy:
Ich möchte wie gesagt meine eigenen Seiten indexieren, aber keine andern.
Ich würde aber schon gerne meinen Index mit andern peers teilen.
Habe YaCy jetzt auf:"Suchportal für Ihre eigene Internetseiten" (Robinson Modus)
gestellt, aber so wie ich das verstehe teile ich meinen Index nicht mit anderen peers, oder?

Wäre das dann ein "Öffentlicher Peer" unter Robinson Modus?
Oder werden nur Suchanfragen beantwortet, aber der index liegt nur bei mir.

Im besonderen möchte ich nur auf meinem Index suchen und keine andern Suchergebnisse haben.
Eike
 
Beiträge: 16
Registriert: Mi Mär 05, 2014 7:51 pm

Re: Yacy als Crawler für eigene Seiten

Beitragvon Vega » Mo Mär 17, 2014 10:58 am

Hallo,

"Öffentlicher Peer" unter Robinson Modus" bedeutet das sich Dein Peer im YaCy Netzwerk bekannt macht und Suchanfragen von anderen Peers beantwortet. Natürlich suchst Du nur in Deinem eigenem Index....

Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Yacy als Crawler für eigene Seiten

Beitragvon Eike » Do Jun 19, 2014 4:10 pm

Die Extension geht voran und ich werde Sie warscheinlich nächsten Monat veröffentlichen.

Ich habe allerdings noch eine Frage betreffend ein Feature das ich mir gerne wünsche.

Ich hätte gerne wenn ein Redakteur in Typo3 Content anlegt, das yacy diese Seite automatisch crawled.

Gibt es die Möglichkeit yacy per API mitzuteilen eine bestimmte Seite zu crawlen?
So was wie: http//:meinyacserver.de/Crawler_p.html?startCrawl=1&url=www.typo3.org/neue-seite

In der API docu im wiki hab ich nichts dazu gefunden. Gibt es generell ein Übersicht an API befehlen die man benutzen kann?
Eike
 
Beiträge: 16
Registriert: Mi Mär 05, 2014 7:51 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste