Idee: 'all about your home page'

Ideen und Vorschläge sind willkommen.

Idee: 'all about your home page'

Beitragvon Orbiter » So Mär 29, 2009 7:59 pm

nachdem ich das viele Blinkiblinki in Shanghai gesehen habe und überlegte was man in YaCy machen kann, damit das Herumspielen einfach attraktiver wird, ist mir was ganz neues im Flugzeug eingefallen: eine ganze Sektion in YaCy machen mit dem Thema "all about your home page". Ist im Prinzip eine ausgedehnte Analysefunktion.

Hintergrund ist, dass wir eigentlich recht viel von den folgenden Punkten für eine solche Analysefunktion haben, aber nicht das Konzept darum herum. Eine Funktionalität 'all about your home page' sollte folgendes bieten:
- Zähler von outlinks und (inbound-/outbound-) deadlinks
- Listung von Referrern auf die eigene Home Page, die wie folgt ermittelt werden können:
-- Backlinks in einer bestimmten 'Enfernung' (der Crawltiefe) von der Homepage (ermittelt der Crawler)
-- Finden von Backlinks mit Hilfe der Suchfunktion
-- Manuelle Angabe von 'Supporter Pages', die dem User einfach so bekannt sind (moderierte Backlinks), hierzu fallen auch forcierte Backlinks (beispielsweise durch Angabe der eigenen Home Page in Foren, Wikis und durch CyTags
- Linkstruktur entsprechend home page und Backlinks (identisch zu existierender Linkstrukturgrafik, nur eben mit voreingestelltem Zentrum)
-- Die Linkstruktur kann man noch aufwerten, indem über die API die Linkstrukturdaten anderer Peers angefragt werden.
- Implantierung von CyTags und Auswertung der CyTags mit Statistiken (haben wir bereits zu 50%)
- Backup der Homepage machen (hatten wir durch den Crawler und den alten HTCACHE)
- Sicherheits-Check der Homepage, bsp. indem geschaut wird ob es offene Directory-Listings gibt (geht durch eine Suche mit Constraints)
- File-Listen aller erreichbaren Dokumente (ist ja eine Funktion des Crawlers)
- automatisches Generieren von neuen Webseiten für die eigene Home Page
-- aktuelle Backlinks als RSS
-- Sitemap
-- Image-Map/Grid/Widget
-- Blog/RSS mit Viewer als Widget
-- Upload von generierten Seiten per FTP

Die Herausforderung bei diesem Homepage - Pflege - Tool ist nicht so sehr, diese Funktionen zu realisieren, sondern die Webseiten für das Interface zu bauen, denn hierbei geht es darum ein Konzept für diese und die bestehenden Funktionen zu finden, um nicht zu viel doppelte Servlets zu bauen. Man müsste die bestehenden Funktionen auslösen, umbauen und neu integrieren. Aber ich glaube es lohnt sich. Das hier wäre etwas, das man gut auf dem Linuxtag präsentieren könnte, und sowieso nützlich. Ideen?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Idee: 'all about your home page'

Beitragvon apfelmaennchen » So Mär 29, 2009 8:56 pm

Orbiter hat geschrieben:hierbei geht es darum ein Konzept für diese und die bestehenden Funktionen zu finden, um nicht zu viel doppelte Servlets zu bauen. Man müsste die bestehenden Funktionen auslösen, umbauen und neu integrieren.


Wenn ich das richtig verstehe (und wenn nicht, dann ist es mein Vorschlag), führt das dazu, dass wir endlich in YaCy Funktionalität vom Webinterface trennen (oder den Server vom Client) - sprich wir würden wohl unser API (XML und JSON) weiter aufbohren. Der RichClient und die YaCyBar zeigen ja schon zwei Ansätze, wie man damit YaCy-Anwendungen erstellen kann.

Ich würde nur keinen Schnellschuss machen......der Linuxtag ist nicht mehr soweit hin. Bis dahin würde ich kleinere Brötchen backen und wie gesagt versuchen ein ordentliches API mit Dokumentation aufzubauen. Davon erhoffe ich mir mehr Mitstreiter, für die Arbeiten an einer wie auch immer gestalteten YaCy-Anwendung.

Ich weiss, dass ist der langweiligere Weg, auf dem es erstmal nichts zu sehen geben wird, aber YaCy ist jetzt in einem Stadium angekommen, wo man nicht nur noch mit halbfertigen Prototypen ankommen kann. Ich spreche da mit dem RichClient aus leidvoller Erfahrung! Ich schätze den Aufwand für das von Orbiter beschriebene Vorhaben nicht ganz so optimistisch ein! Da wir eh zu wenige Developer sind, sollten wir versuchen unseren Resourcen stärker zu fokusieren - worauf auch immer......

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Idee: 'all about your home page'

Beitragvon RocketTurtle » Di Mär 31, 2009 7:36 am

Halte ich für eine sehr gute Idee :) Ich hänge praktisch dauernd auf Seiten wie Seitwert.de rum, bevor ich mich entscheide ob ich das gut oder schlecht finde möchte ich aber zuerst noch ein paar Sachen wissen:

automatisches Generieren von neuen Webseiten für die eigene Home Page ?


Was macht das genau?

Listung von Referrern auf die eigene Home Page


Ich denke, dass YaCy hier Schwierigkeiten haben könnte :) Man kriegt auch Backlinks die nicht im Linkdunstkreis um die eigene Homepage liegen. Fällt mir also bloß ein Logfile-Parser ein, der sich zusätzlich die Referrer rauspickt und die auch einmal crawlt.

Ich schätze den Aufwand für das von Orbiter beschriebene Vorhaben nicht ganz so optimistisch ein! Da wir eh zu wenige Developer sind, sollten wir versuchen unseren Resourcen stärker zu fokusieren


So ganz optimistisch bin ich da auch nicht. Vorschlag zur Güte: Wir basteln das, was wir am besten können - Backlinkauswertungstechnisch sind wir doch z.B. gut dabei und überlassen den Rest findigen Mashup-Bauern :)

Edit: Oder Basteln es wenn wir Zeit haben ;)
RocketTurtle
 
Beiträge: 16
Registriert: Do Mär 26, 2009 10:26 pm
Wohnort: München

Re: Idee: 'all about your home page'

Beitragvon Orbiter » Di Mär 31, 2009 12:33 pm

seitwert.de kannt ich noch nicht, interessant!

RocketTurtle hat geschrieben:Halte ich für eine sehr gute Idee :) Ich hänge praktisch dauernd auf Seiten wie Seitwert.de rum, bevor ich mich entscheide ob ich das gut oder schlecht finde möchte ich aber zuerst noch ein paar Sachen wissen:

automatisches Generieren von neuen Webseiten für die eigene Home Page ?


Was macht das genau?

steht oben unter dem Punkt drunter

RocketTurtle hat geschrieben:
Listung von Referrern auf die eigene Home Page


Ich denke, dass YaCy hier Schwierigkeiten haben könnte :) Man kriegt auch Backlinks die nicht im Linkdunstkreis um die eigene Homepage liegen. Fällt mir also bloß ein Logfile-Parser ein, der sich zusätzlich die Referrer rauspickt und die auch einmal crawlt.

soll ja auch nicht den Anspruch haben, vollständig zu sein. Deswegen heissen die über den Crawler gefunden referrer auch backlinks.

RocketTurtle hat geschrieben:
Ich schätze den Aufwand für das von Orbiter beschriebene Vorhaben nicht ganz so optimistisch ein! Da wir eh zu wenige Developer sind, sollten wir versuchen unseren Resourcen stärker zu fokusieren


So ganz optimistisch bin ich da auch nicht. Vorschlag zur Güte: Wir basteln das, was wir am besten können - Backlinkauswertungstechnisch sind wir doch z.B. gut dabei und überlassen den Rest findigen Mashup-Bauern :)

Edit: Oder Basteln es wenn wir Zeit haben ;)

Wenn ihr die Webseiten bastelt, lege ich die Funktionen drunter. Ich denke das könnte bis zum Linuxtag klappen, sind ja noch fast drei Monate.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Idee: 'all about your home page'

Beitragvon RocketTurtle » Di Mär 31, 2009 12:47 pm

Wenn ihr die Webseiten bastelt, lege ich die Funktionen drunter. Ich denke das könnte bis zum Linuxtag klappen, sind ja noch fast drei Monate.


Aye, am besten planen wir das ganze zuerst einmal genau im Wiki. Den API-Call würde ich dann auch produktiv auf YiGG einsetzen können, von meiner Warte aus würde das YaCy um einiges attraktiver machen. Wie ich schon sagte bauen wir lieber, eins nach dem anderen :) So ist dann auch nichts halbfertig und niemand muss sich ärgern, dass etwas nicht geht.

@apfelmaennchen , @orbiter : Soll das in den RichClient oder ins konventionelle Interface? Ich schlage vor diese Funktion ins konventionelle Interface zu integrieren und die RichClient-Suche nochmal genauer zu planen im Wiki. Habe seit gestern etwas darüber nachgedacht und wenn im neuen RichClient-Interface Refactoring nötig ist, dann sollten wir nicht damit warten sondern, dass zuerst in Angriff nehmen um später Mehrarbeit zu vermeiden :)
RocketTurtle
 
Beiträge: 16
Registriert: Do Mär 26, 2009 10:26 pm
Wohnort: München

Re: Idee: 'all about your home page'

Beitragvon RocketTurtle » Di Mär 31, 2009 8:48 pm

Ist es in Ordnung, wenn ich im Wiki einfach mal ein Planungsseite für die URL-Analysefunktion aufmache, wo wir chaosmäßige Planung betreiben können?
RocketTurtle
 
Beiträge: 16
Registriert: Do Mär 26, 2009 10:26 pm
Wohnort: München

Re: Idee: 'all about your home page'

Beitragvon Orbiter » Di Mär 31, 2009 9:06 pm

sicher, einfach machen
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Idee: 'all about your home page'

Beitragvon RocketTurtle » Di Mär 31, 2009 9:52 pm

Hab hier mal angefangen: http://www.yacy-websuche.de/wiki/index. ... nen_Seiten
Wäre gut, wenn ihr zur Wiki-Seite alles hinzufügt, was euch einfällt. Zur Zeit steht nur Frontendkram drin, Ist jetzt nicht viel geworden und ich bin heute Abend nicht so inspiriert.

Alles in allem glaube ich aber inzwischen Orbiter, dass das meiste eh schon da ist und wir das ganze bauen sollten. Ich habe natürlich nicht so einen Überblick wie ihr, was gemacht werden muss aber ich halte das durchaus für machbar in 3 Monaten. Ansonsten kann man ja durchaus auch einen SVN-Branch aufmachen und das ganze von der steinewerfenden Öffentlichkeit versteckt machen.

Ich frage mich zur Zeit noch: Wäre es nicht cool, die Analysefunktion für beliebig viele Seiten zu öffnen? Man kann die dann einfach in die ReCrawl-Liste packen.
RocketTurtle
 
Beiträge: 16
Registriert: Do Mär 26, 2009 10:26 pm
Wohnort: München

Re: Idee: 'all about your home page'

Beitragvon apfelmaennchen » Di Mär 31, 2009 11:16 pm

Ganz ehrlich, dass ist so ein bisschen ein Henne-Ei-Problem.
Wenn es ein /api/getBacklinks.xml?url=www.yacy.net Servlet geben würde, dann könnte man auch eine Web-Seite drumherum basteln. Selbiges gilt für die anderen angesprochenen Funktionen - da angeblich eh alles schon da ist, schreibt mir doch bitte den entsprechenden API-Aufruf direkt dahinter, dann verspreche ich bis nächsten Montag die entsprechenden Web-Seiten ;-)

Für die Backlinks muss aus meiner Sicht eine eigene kleine (wenn man das auf eine Domain beschränkt) DB her. Diese könnte dann über die von Orbiter beschriebenen Methoden bestückt werden.

Dazu habe ich bereits mit der Suche experimentiert indem ich die Rankingeinstellungen für "Appearance In Reference/Anchor Name" entsprechend hochgedreht habe. Alle anderen Rankings scheinen nicht wirklich hilfreich zu sein. Hier bekommt man aber definitiv nur eine Art URL-Basis, die man einzeln weiter überprüfen müsste - sollte also kein großes Problem sein. Kann man eigentlich einer einzelnen Suchanfrage eine Rankingeinstellung mitgeben, oder muss man dazu jedes Mal das Default-Ranking anpassen?

Der zweite, bereits vorhandene Weg ist /api/webstructure.xml (wirft leider auf meinem Peer nur noch eine java.lang.NumberFormatException: For input string: "jOjA" - in refstr2map). Das kann man dann auch bei anderen Peers und ggf. auch öfter mal zur Aggregation abfragen. An einem ähnlichen Konzept hatte ich vor einiger Zeit im Zusammenhang mit Jena und TDB schon mal gebastelt...

Der dritte Weg wäre es dem Crawler beizubringen grundsätzlich die Augen nach Links auf die eigene Domain offen zu halten. Noch schöner wäre es möglichst vielen Peers/Crawlern diesen Wunsch mitzuteilen und um entsprechende Rückmeldung (ähnlich wie Remote Crawls) zu bitten.

Also mein Tipp:
Lasst uns eine gute P2P-Backlink-Auswertung ins YaCy API aufnehmen und als ersten Schritt eine "einfache" Seite dazu ins Webinterface. Ich glaube alleine diese Funktion wird für ordentlich Resonaz sorgen.

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Idee: 'all about your home page'

Beitragvon Orbiter » Mi Apr 01, 2009 3:56 pm

RocketTurtle hat geschrieben:Ich frage mich zur Zeit noch: Wäre es nicht cool, die Analysefunktion für beliebig viele Seiten zu öffnen? Man kann die dann einfach in die ReCrawl-Liste packen.

ja, das muss man nur von Anfang an genügend abstrahieren. Du hast ja die Wiki-Seite auch schon auf 'Analyse' getrimmt, das ist zwar treffend, aber aus der Erfahrung mit den Messebesuchern beim linuxtag weiss ich, dass die Leute ein konkretes Anwendungszenarium brauchen, um zu verstehen worum es geht. Daher heisst diese Idee ja auch 'all about your home page'. Ich würde das nicht aus dem Auge verlieren. Im Kontext zu deiner Frage: natürlich kann jeder mehrere Home pages haben...

apfelmaennchen hat geschrieben:Ganz ehrlich, dass ist so ein bisschen ein Henne-Ei-Problem.
Wenn es ein /api/getBacklinks.xml?url=www.yacy.net Servlet geben würde, dann könnte man auch eine Web-Seite drumherum basteln. Selbiges gilt für die anderen angesprochenen Funktionen - da angeblich eh alles schon da ist, schreibt mir doch bitte den entsprechenden API-Aufruf direkt dahinter, dann verspreche ich bis nächsten Montag die entsprechenden Web-Seiten ;-)

ja so kann man das auch angehen. dann lege ich halt vor: SVN 5766 liefert bei
http://localhost:8080/api/webstructure. ... w.yacy.net
Code: Alles auswählen
<?xml version="1.0"?>
<webstructure>
<domains reference="reverse" count="1" maxref="300">
<domain host="www.yacy.net" id="FXg39Q" date="20090401">
<citation host="java.sun.com" id="o-R3yY" count="1" />
<citation host="yacy-suche.de" id="-KCLaB" count="1" />
<citation host="suma-ev.de" id="VRAHIA" count="1" />
<citation host="www.kit.edu" id="EMaLDQ" count="1" />
<citation host="yacy.net" id="Fh1hyQ" count="1" />
<citation host="www.fzk.de" id="V2Kl-A" count="1" />
<citation host="en.wikipedia.org" id="rwtdfR" count="3" />
<citation host="vimeo.com" id="MmdQDY" count="3" />
<citation host="liebel.fzk.de" id="sX4ozA" count="6" />
</domain>
</domains>
</webstructure>

wenn man vorher einen Crawl von yacy.net gestartet hat.

apfelmaennchen hat geschrieben:Für die Backlinks muss aus meiner Sicht eine eigene kleine (wenn man das auf eine Domain beschränkt) DB her. Diese könnte dann über die von Orbiter beschriebenen Methoden bestückt werden.

Wie man oben sieht sind das ja keine echten Backlinks, sondern nur domänen. Man könnte diese als 'hint' benutzen, um dann im Index zu suchen. Ich würde hier keine neue DB nehmen, der Index sollte das durch entsprechende Parametrisierung liefern, dafür ist er ja da. Muss ich basteln.

apfelmaennchen hat geschrieben:Dazu habe ich bereits mit der Suche experimentiert indem ich die Rankingeinstellungen für "Appearance In Reference/Anchor Name" entsprechend hochgedreht habe. Alle anderen Rankings scheinen nicht wirklich hilfreich zu sein. Hier bekommt man aber definitiv nur eine Art URL-Basis, die man einzeln weiter überprüfen müsste - sollte also kein großes Problem sein. Kann man eigentlich einer einzelnen Suchanfrage eine Rankingeinstellung mitgeben, oder muss man dazu jedes Mal das Default-Ranking anpassen?

Man kann jeder Suche ein alternatives Ranking angeben, wir haben aber noch keine Ranking-Profil Speicherung ausser dem 'einen' Ranking. Dieser wird allerdings bei jeder remote Suche dem remote Peer mitgeteilt. In diesem Fall würde ich aber eher über Constraints gehen, die ich noch malchen muss. Also ein 'echter' site-Operator.

apfelmaennchen hat geschrieben:Der zweite, bereits vorhandene Weg ist /api/webstructure.xml (wirft leider auf meinem Peer nur noch eine java.lang.NumberFormatException: For input string: "jOjA" - in refstr2map). Das kann man dann auch bei anderen Peers und ggf. auch öfter mal zur Aggregation abfragen. An einem ähnlichen Konzept hatte ich vor einiger Zeit im Zusammenhang mit Jena und TDB schon mal gebastelt...

Den Bug habe ich bearbeitet.

apfelmaennchen hat geschrieben:Der dritte Weg wäre es dem Crawler beizubringen grundsätzlich die Augen nach Links auf die eigene Domain offen zu halten. Noch schöner wäre es möglichst vielen Peers/Crawlern diesen Wunsch mitzuteilen und um entsprechende Rückmeldung (ähnlich wie Remote Crawls) zu bitten.

Die Kombination aus Crawlen und Suchen ist hier richtig. Das muss in dem 'all about your home page' richtig im Konzept abgebildet werden.

apfelmaennchen hat geschrieben:Also mein Tipp:
Lasst uns eine gute P2P-Backlink-Auswertung ins YaCy API aufnehmen und als ersten Schritt eine "einfache" Seite dazu ins Webinterface. Ich glaube alleine diese Funktion wird für ordentlich Resonaz sorgen.

Die Backlinks sind ja nicht alles, sondern nur ein Feature unter den o.g. Und das api ist ja nun da, auch wenn es noch keine 'ganzen' Urls liefert, sonder nur domänen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Idee: 'all about your home page'

Beitragvon apfelmaennchen » Do Apr 02, 2009 6:56 am

Hab ich schon wieder alles missverstanden?

Orbiter hat geschrieben:wenn man vorher einen Crawl von yacy.net gestartet hat.


Was zeigt der neue Aufruf /api/webstructure?about=www.yacy.net denn an - inbound oder outbound link-domains?
Denn für inbound-domains wäre ein Crawlen von http://www.yacy.net keine zwingende Voraussetzung, sondern man müsste Seiten gecrawlt haben, auf denen ein Link zu yacy.net vorkam. Sollten jedoch die outbound-linkdomains angezeigt werden, so war meine Idee eigentlich, nicht durch die domain tags zu scannen, sondern durch die citations tags um an die Backlinks zu kommen.

Orbiter hat geschrieben:Also ein 'echter' site-Operator.


Enthält unser Index, also namlich die URL-DBs denn Informationen zur Linkstruktur, die sich für die Backlink-Suche eignen würden (genaugenommen also die Links selbst) - ich war immer der Meinung, dass nicht? Ein Constraint im Sinne eines 'echten' Site-Operator würde worauf einschränken?

Ich sehe im Rahmen der Suche lediglich die Möglichkeit Domains oder URLs zu bekommen, die es sich lohnt zu crawlen, um an Backlinks zu kommen. Wenn denn der Crawler, entsprechend auf Backlinks achtet, muss er gefundene URLs irgendwo zwischenspeichern, daher mein Vorschlag zu einer eigenen DB.Eigentlich müsste der Crawler hier ja schon was machen, denn für das YBR ist diese Link-Struktur Information ja auch irgendwie relevant.

Gäbe es diese BacklinkDB, so wäre es eben ein leichtes, den YaCy Crawler auf die "Suche" nach Backlinks zu schicken. Die Motivation immer weiter zu crawlen um mehr Backlinks auf die eigene Domain zu finden wäre dann auch viel größer, als wenn ich einfach jeden Peer fragen könnte ;-)
Sprich jeder der diese Funktion sinnvoll einsetzen möchte muss einen Peer betreiben und das ggf. über einen längeren Zeitraum.

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Idee: 'all about your home page'

Beitragvon apfelmaennchen » Do Apr 02, 2009 7:31 am

Nur, dass kein falscher Eundruck aufkommt.....ich stänkere nicht nur, sonder überlege und bastle im Hintergrund schon an einem Konzept :-)
Die Idee finde ich nämlich echt klasse:

User: Ich betreibe die Website. http://www.yacy.net
YaCy: crawlStart von http://www.yacy.net
User: Und jetzt?
YaCy: Der Crawl der Site lieferte folgende Ergebnisse:
a) Site Map von http://www.yacy.net ==> Code Snippet zur Einbindung in die eigenen Seiten
b) lokales Backup von http://www.yacy.net
c) Suchindex ==> Einbindung via Portalsuche Widget
d) Statistische Analyse z.B. für Termfrequency der eigenen Seiten
e) Inbound Links (Backlinks) ==> Crawler sucht permanent weiter
f) Auto-Bookmarks für Seiten mit ähnlichem Inhalt ==> Crawler sicht permanent weiter
f) Outbound Links ==> es wird regelmäßig auf Dead-Links geprüft
g) ...

Dafür würde ich dann ein eigenes Profil ähnlich dem "Search portal for your own web pages" Profil empfehlen, welchem man dann gleich die Start-URL mitgeben könnte. Würde also alles in Richtung eines persönlichen und fokusierten Crawlers gehen und nicht so sehr versuchen, den bestehenden Index auszuquetschen.

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Idee: 'all about your home page'

Beitragvon RocketTurtle » Do Apr 02, 2009 8:23 am

Ach, das ist auch nicht so angekommen. Sorry, dass ich gestern nicht geantwortet habe war auf einer Tagung.

Also dass man die Seit zuerst crawlen muss war ja denke ich auch so gedacht und es soll ja auch ausdrücklich ein Anreiz und ein Grund sein einen eigenen Peer aufzusetzen.

Dafür würde ich dann ein eigenes Profil ähnlich dem "Search portal for your own web pages" Profil empfehlen, welchem man dann gleich die Start-URL mitgeben könnte. Würde also alles in Richtung eines persönlichen und fokusierten Crawlers gehen und nicht so sehr versuchen, den bestehenden Index auszuquetschen.


Hört sich gut an, hat auch den Vorteil dass der eigene Index schön von einem zentralen Punkt aus automatisch wachsen könnte und man keine Kreativität mehr für das anlegen neuer Startpunkte für den Crawler braucht.
RocketTurtle
 
Beiträge: 16
Registriert: Do Mär 26, 2009 10:26 pm
Wohnort: München

Re: Idee: 'all about your home page'

Beitragvon Orbiter » Do Apr 02, 2009 9:10 am

apfelmaennchen hat geschrieben:Was zeigt der neue Aufruf /api/webstructure?about=www.yacy.net denn an - inbound oder outbound link-domains?
Denn für inbound-domains wäre ein Crawlen von http://www.yacy.net keine zwingende Voraussetzung, sondern man müsste Seiten gecrawlt haben, auf denen ein Link zu yacy.net vorkam. Sollten jedoch die outbound-linkdomains angezeigt werden, so war meine Idee eigentlich, nicht durch die domain tags zu scannen, sondern durch die citations tags um an die Backlinks zu kommen.

ich dussel, das api zeigt ja outbound-links, nicht inbound. Würde ich aber erweitern wollen, so dass dort inbound gezeigt werden, dazu ist die Parametrisierung des domains-tags ja gedacht (references=reverse ist offenbar falsch)

Crawlen ist insofern eine Vorraussetzung, als dass ich hier die Dinger 'Backlinks' bezeichne, d.h. Seiten die mich linken die ich linke. Nicht irgendweleche die mich auch linken, das nenne ich oben referrer. Für die muss man anders ran gehen.

apfelmaennchen hat geschrieben:
Orbiter hat geschrieben:Also ein 'echter' site-Operator.

Enthält unser Index, also namlich die URL-DBs denn Informationen zur Linkstruktur, die sich für die Backlink-Suche eignen würden (genaugenommen also die Links selbst) - ich war immer der Meinung, dass nicht? Ein Constraint im Sinne eines 'echten' Site-Operator würde worauf einschränken?

Wir haben einen site-Operator, der als Filter auf die URL operiert. Ein 'echter' site-Operator filtert auf die URL-hashes im RWI, ist also ein Element des Pre-Rankings, nicht des Post-Rankings wie jetzt und damit unheimlich viel schneller. Bin dran das einzubauen. Was wir davon haben: man kann die Backlink-Liste der hosts nehmen, die wir ja in der Webstruktur haben, und damit je eine Suche absetzten um die eigentliche URL des Backlinks zu bekommen, nicht nur den Host wo irgendein Backlink ist. Der 'richtige' site-Operator sollte so schnell sein, dass man viele Suchanfragen in weniger als eine Sekunde durch bekommt, eher im Millisekundenbereich. Deswegen denke ich dass der site-Operator bei der Recherche in der eigenen DB (dem Index) hilft.

apfelmaennchen hat geschrieben:Ich sehe im Rahmen der Suche lediglich die Möglichkeit Domains oder URLs zu bekommen, die es sich lohnt zu crawlen, um an Backlinks zu kommen. Wenn denn der Crawler, entsprechend auf Backlinks achtet, muss er gefundene URLs irgendwo zwischenspeichern, daher mein Vorschlag zu einer eigenen DB.Eigentlich müsste der Crawler hier ja schon was machen, denn für das YBR ist diese Link-Struktur Information ja auch irgendwie relevant.

ich denke mal drüber nach.

apfelmaennchen hat geschrieben:Gäbe es diese BacklinkDB, so wäre es eben ein leichtes, den YaCy Crawler auf die "Suche" nach Backlinks zu schicken. Die Motivation immer weiter zu crawlen um mehr Backlinks auf die eigene Domain zu finden wäre dann auch viel größer, als wenn ich einfach jeden Peer fragen könnte ;-)
Sprich jeder der diese Funktion sinnvoll einsetzen möchte muss einen Peer betreiben und das ggf. über einen längeren Zeitraum.

naja, Backlinks 'blind' zu ercrawlen ist schon ganz schön schwierig. Man müsste eine entsprechende Menge von Heuristiken anwenden, um günstige Startpunkte zu bekommen, beispielsweise eine Remote Suche nach der eigenen Domain.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Idee: 'all about your home page'

Beitragvon RocketTurtle » Do Apr 02, 2009 9:28 am

naja, Backlinks 'blind' zu ercrawlen ist schon ganz schön schwierig. Man müsste eine entsprechende Menge von Heuristiken anwenden, um günstige Startpunkte zu bekommen, beispielsweise eine Remote Suche nach der eigenen Domain.


http://developer.yahoo.com/search/sitee ... kData.html

Erlaubt 5000 API-Calls von der selben IP am Tag und reicht locker um direkt einen guten Ausgangspunkt für YaCy selber zu haben ;) Ist auch für kommerzielle Nutzung erlaubt unter diesen Vorraussetzungen und ausserdem würde ich das Ding ja auch nur als Ausgangspunkt für YaCy's Reise nehmen :)
RocketTurtle
 
Beiträge: 16
Registriert: Do Mär 26, 2009 10:26 pm
Wohnort: München

Re: Idee: 'all about your home page'

Beitragvon Orbiter » Do Apr 02, 2009 10:27 am

das Ding ist super, aber wer mich kennt weiss das hier immer ein Argument von mir kommt, meistens im Kontext zu Metasuche: "fremde Dienst zu nutzen würde zeigen dass wir das selber nicht können." An dieser Stelle würde ich das aber nicht so eng sehen, vorrausgesetzt wir entwickeln eine eigene Methodik um Backlinks zu finden; das geht ja schon und habe ich oben ja angerissen.

Wie wäre es, die Yahoo-API in YaCy zu integrieren, und zwar als Gateway zum eigenen Backlink-Service und zur yahoo-api? Also ein /api/inlinkData_p.xml mit den gleichen Request Parametern wie bei Yahoo und einer Option um das ganze statt mit der Yahoo-Antwort als RSS zu liefern? Ich denke ein RSS wäre einfacher zu verarbeiten, weil wir dazu schon auch im Front-End viele Routinen haben die das lesen kann. Die Datenquelle für die Anfrage würde ich in einem zusätzlichen GET-Feld source=yacy bzw. source=yahoo; oder kombiniert: source=yacy,yahoo realisieren. Alle Ergebnisse würden dann in eine von apfelmaennchen so herbeigesehnte Tabelle gehen, und per source=cache abfragbar sein.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Idee: 'all about your home page'

Beitragvon RocketTurtle » Do Apr 02, 2009 11:36 am

Hört sich gut an und es geht ja auch nicht so sehr darum, dass YaCy das nicht kann - wir haben ja halt einach nur einen Nachteil anfänglich - wir können diese nicht verbundenen Links halt wirklich nicht herbeizaubern aus dem stehgreif, wenn der Peer neu aufgesetzt ist. Danach wird die persönliche YaCy-Backlink-Suche viel akurater und aktueller sein als das was man von Yahoo! bekommt - ähnliche API's gibt es natürlich auch von Technorati (Technorati Cosmos) und Google - allerdings halte ich die Ergebnisse von Yahoo! für den besten Ausgangspunkt um einen leeren Peer auf die Suche zu schicken.
RocketTurtle
 
Beiträge: 16
Registriert: Do Mär 26, 2009 10:26 pm
Wohnort: München

Re: Idee: 'all about your home page'

Beitragvon apfelmaennchen » Do Apr 02, 2009 6:18 pm

Das Yahoo API ist klasse, in ein YaCy-Servlet würde ich das nicht integrieren, denn sich mit fremden Federn schmücken ist nie gut - immerhin haben wir aber einen Benchmark, gegen den sich die YaCy Backlink-Suche messen kann :-)

Was ich bevorzugen würde, wäre die Ergebnisse von YaCy und Yahoo clientseitig zusammenzuführen - schöner als eine Tabelle wäre natürlich sowas in der Art: http://kylescholz.com/projects/speaking ... B000I0QL1O

Ich hatte ja bereits angedeutet, dass man ausgehend von einem neuaufgesetzten Peer mit einer Remote-Suche nach der URL mit dem Ranking "Appearance In Reference/Anchor Name" starten könnte. Wenn man alle URLs des Suchergebnisses mit einer Tiefe von 1 oder 2 crawlt, dann müsste der Crawler schon an einigen Backlinks oder Referrern vorbeikommen. Wenn jeder aktive Peer zusätzlich einen "Such-Wunsch" im Netz platzieren darf und ihm die anderen Crawler gefundene Backlinks zurückmelden, dann nutzen wir auch hier die Vorteile, die der P2P-Ansatz bietet und es wird klar, wo die Vorteile liegen mitzumachen.

Der konsequenteste Ansatz wäre dem Indexierer nicht nur RWIs erzeugen zu lassen, sondern auch RLIs (Reverse Link Index). Technisch gesehen ist dafür ja auch schon fast alles in YaCy vorhanden...

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Idee: 'all about your home page'

Beitragvon Orbiter » Fr Apr 03, 2009 9:40 am

nachdem der erste Wurf für das Aufsammeln von Referenzen in der webstructure-API nicht das Wahre war, habe ich das nochmal überarbeitet. Nun sieht das Ergebnis für
http://localhost:8080/api/webstructure. ... t=yacy.net
so aus:
Code: Alles auswählen
<?xml version="1.0"?>
<webstructure maxhosts="20000">

<references direction="out" count="1" maxref="300">
<domain host="yacy.net" id="Fh1hyQ" date="20090403">
  <reference id="o-R3yY" count="2">java.sun.com</reference>
  <reference id="VRAHIA" count="2">suma-ev.de</reference>
  <reference id="-KCLaB" count="2">yacy-suche.de</reference>
  <reference id="EMaLDQ" count="2">www.kit.edu</reference>
  <reference id="rwtdfR" count="6">en.wikipedia.org</reference>
  <reference id="V2Kl-A" count="2">www.fzk.de</reference>
  <reference id="MmdQDY" count="6">vimeo.com</reference>
  <reference id="sX4ozA" count="12">liebel.fzk.de</reference>
</domain>
</references>


<references direction="in" count="1">
<domain host="yacy.net" id="Fh1hyQ" date="20090403">
  <reference id="rwtdfR" count="1">en.wikipedia.org</reference>
  <reference id="sX4ozA" count="1">liebel.fzk.de</reference>
</domain>
</references>

</webstructure>

Da sind nun also immerhin 2 Referenzen drin. Ich habe aber die ganze Syntax des XML verändert weil ich das nicht mehr gut fand wie es vorher war. SVN 5775. Bitte schaut mal ob das so für euch passt; die einzige Anpassung die man wohl bisher machen muss ist in der Grafik vom Terminal (das animierte Ding), mache ich dann auch noch.

apfelmaennchen hat geschrieben:Das Yahoo API ist klasse, in ein YaCy-Servlet würde ich das nicht integrieren, denn sich mit fremden Federn schmücken ist nie gut - immerhin haben wir aber einen Benchmark, gegen den sich die YaCy Backlink-Suche messen kann :-)

ok

apfelmaennchen hat geschrieben:Was ich bevorzugen würde, wäre die Ergebnisse von YaCy und Yahoo clientseitig zusammenzuführen - schöner als eine Tabelle wäre natürlich sowas in der Art: http://kylescholz.com/projects/speaking ... B000I0QL1O

Wenn du obigen api-Aufruf während dem Crawl immer wieder aufrufst, und das Ergebnis auswertest und darstellst kommst du auch dazu. Das ist ja in der 1 Jahr alten terminal-Seite schon so ähnlich, vielleicht nicht ganz so hübsch. Das Problem bei der Darstellung ist, das dein Beispiel ein echter Baum ist, aber eine Verlinkungsstruktur beliebig verlinkt sein kann und dann immer so einen hässlichen Knoten ergibt.

apfelmaennchen hat geschrieben:Ich hatte ja bereits angedeutet, dass man ausgehend von einem neuaufgesetzten Peer mit einer Remote-Suche nach der URL mit dem Ranking "Appearance In Reference/Anchor Name" starten könnte. Wenn man alle URLs des Suchergebnisses mit einer Tiefe von 1 oder 2 crawlt, dann müsste der Crawler schon an einigen Backlinks oder Referrern vorbeikommen. Wenn jeder aktive Peer zusätzlich einen "Such-Wunsch" im Netz platzieren darf und ihm die anderen Crawler gefundene Backlinks zurückmelden, dann nutzen wir auch hier die Vorteile, die der P2P-Ansatz bietet und es wird klar, wo die Vorteile liegen mitzumachen.

ja, gute Idee.

apfelmaennchen hat geschrieben:Der konsequenteste Ansatz wäre dem Indexierer nicht nur RWIs erzeugen zu lassen, sondern auch RLIs (Reverse Link Index). Technisch gesehen ist dafür ja auch schon fast alles in YaCy vorhanden...

höhö, und wird in gewisser Weise ja schon erzeugt, in Form der citation reference Dateien, die rumgeschickt werden, aber nie ausgewertet werden. Ich habe davon ja eine Sammlung mit sehr vielen Gigabyte Daten .. aber nie ausgewertet. Ich denke mal über einen 'echten' Index nach.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Idee: 'all about your home page'

Beitragvon apfelmaennchen » Fr Apr 03, 2009 10:14 pm

Orbiter hat geschrieben:Da sind nun also immerhin 2 Referenzen drin.


http://localhost:8080/api/webstructure. ... t=yacy.net
Code: Alles auswählen
<references direction="in" count="1">
<domain host="yacy.net" id="Fh1hyQ" date="20090403">
<reference id="1j2L1A" count="8">yacy.de</reference>
<reference id="bNI6nS" count="1">www.yacy-websearch.net</reference>
<reference id="JdQdMC" count="21">www.yacy-websuche.de</reference>
<reference id="oDkHbA" count="3">www.zdnet.de</reference>
<reference id="wqcWfA" count="1">www.itgrl.de</reference>
<reference id="eNS3mY" count="2">www.hyperorg.com</reference>
<reference id="zkvLjA" count="5">www.yacy.de</reference>
<reference id="3AFMlC" count="8">yacy-websuche.de</reference>
</domain>
</references>


Mein Peer hat schon 8 anzubieten, der Wettbewerb ist eröffnet ;-)

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Idee: 'all about your home page'

Beitragvon Low012 » Sa Apr 04, 2009 8:45 am

Code: Alles auswählen
<references direction="in" count="1">
<domain host="yacy.net" id="Fh1hyQ" date="20090404">
  <reference id="BGIES4" count="1">twitter.com</reference>
  <reference id="1j2L1A" count="2">yacy.de</reference>
  <reference id="FXg39Q" count="1">www.yacy.net</reference>
  <reference id="bNI6nS" count="3">www.yacy-websearch.net</reference>
  <reference id="JdQdMC" count="11">www.yacy-websuche.de</reference>
  <reference id="m14ZBC" count="38">blog.yacy-websuche.de</reference>
  <reference id="T8eh0B" count="2">low.audioattack.de</reference>
  <reference id="DYKz5A" count="2">www.daburna.de</reference>
  <reference id="wqcWfA" count="1">www.itgrl.de</reference>
  <reference id="zkvLjA" count="1">www.yacy.de</reference>
  <reference id="3AFMlC" count="8">yacy-websuche.de</reference>
</domain>
</references>
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Idee: 'all about your home page'

Beitragvon Orbiter » Sa Apr 25, 2009 2:25 pm

ich bin immer noch der Meinung das wir hier einiges zum Linuxtag noch schaffen können. Ich finde wir sollten das in apfelmaennchens yacy/ui einbauen. Das Ding ist doch sehr schön und sieht nach richtig moderner Applikation aus, wenn da auch noch so ein neues Feature richtig rein gebaut wird bekommt es Leben eingehaucht. Dazu müsste ich folgendes wissen:
- ich hätte für das 'all about your home page' eine eigene Menüstruktur, denn das werden ja mehrere Seiten. Alles nach links? wie mache ich das? apfelmaennchen, kannst du das Submenü und 2 Dummy-Seiten machen, damit ich weiss wie ich anfangen kann zu bauen?
- wie kann man ein hin-und-her Wandern vom yacy/ui und dem alten Menü am besten machen? Gibt es einen 'schnellen' weg die alten Servlets in yacy/ui reinzuziehen?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Idee: 'all about your home page'

Beitragvon apfelmaennchen » Sa Apr 25, 2009 10:21 pm

Orbiter hat geschrieben:- wie kann man ein hin-und-her Wandern vom yacy/ui und dem alten Menü am besten machen? Gibt es einen 'schnellen' weg die alten Servlets in yacy/ui reinzuziehen?


Als Beispiel habe ich mal rudimentär den LogViewer nachgebaut um die Vorgehensweise zu erläutern:

1) /ViewLog_p.json anlegen - peanuts!
1b) wer Zeit und Lust hat, kann natürlich eine elegantere JSON Ausgabe bauen - z.B. die Logzeile in Komponenten zerlegt ausgeben ...
2) /ViewLog_p.java checken, ob JSON Encoding notwendig ist - es gibt jetzt neben putHTML und putXML auch noch putJSON
3) /yacy/ui/index.html um einen weiteren Tab ergänzen - siehe unten
Code: Alles auswählen
   
<div id="tabs-container" class="main">
   <ul>
      <!-- initial tabs only, dynamic tabs are loaded via jQuery -->
      <li><a href="yacyui-welcome.html" title="About YaCy-UI"><span>About YaCy-UI</span></a></li>
      <li><a href="yacyui-admin.html" title="Admin Console"><span>Admin Console</span></a></li>                  
      <li><a href="yacyui-bookmarks.html" title="Bookmarks"><span>Bookmarks</span></a></li>
      <li><a href="yacyui-view-log.html" title="Server Log"><span>Server Log</span></a></li>         
   </ul>      
</div>

4) /yacy/ui/yacyui-view-log.html anlegen - hier kommt der ganze JavaScript und HTML Code für die JSON-Verarbeitung rein ...
4a) alles was tabellarisch ist würde ich wie im Beispiel mit Flexigrid machen ...
5) die Sidebar würde ich erst ganz zum Schluss machen, wenn die Funktionalität steht ...

Also alles ganz einfach, muss nur einer tun ...

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Idee: 'all about your home page'

Beitragvon Phiber » Mi Jun 17, 2009 11:42 am

Ich nutze den Thread mal um noch einen Wunsch bezüglich der Webstruktur loszuwerden:

- Könnte man die maximale Bildgrösse von jetzt 1920x1920 etwas erhöhen, vielleicht auf 10'000x10'000 oder etwas in der Grösse. Das ganze wäre unter /htroot/WebStructurePicture_p.java zu finden. Ich kriege es halt einfach nicht hin mir selber mein YaCy zu compilieren bzw. hab ich auch nicht die Zeit dazu jedesmal.

Die Web-Struktur ist wirklich ein sehr nettes und interessantes Feature zum rumspielen, seinen Index zu analysieren oder einfach nur die Zusammenhänge von einzelnen Webseiten zu studieren.
Man könnte auch http://localhost:8080/api/webstructure. ... t=yacy.net mal einbauen damit jeder dieses Feature nutzen kann und nicht nur diejenigen, welche diesen Thread hier kennen. Wobei ich das ganze ja jetzt auch mal ein wenig auffrische ;)
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Idee: 'all about your home page'

Beitragvon Orbiter » Mi Jun 17, 2009 1:38 pm

das ist ok, drin in SVN 6089
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 2 Gäste