Arbeitspunkte für alle zum mitmachen

Ereignisse, Vorschläge und Aktionen

Arbeitspunkte für alle zum mitmachen

Beitragvon Orbiter » Di Okt 23, 2007 9:24 am

während meiner Reise habe ich wieder, wie immer wenn ich länger offline bin, eine Arbeitsliste mit Feinspezifikationen gemacht, um die nächsten Schritte bei der Erweiterung von YaCy zu planen. Da kommt immer ein Haufen Arbeit zusammen, der für Monate reicht. Ich würde euch gerne zum Mitmachen anregen, und Teile der Aufgaben im Entwickler-Bereich in einem neuen Forum anbieten. Es liegt mir fern, Aufgaben delegieren zu wollen, da wir ja hier 'nur' Freizeit-Freiwillige sind, und kein Unternehmen wo man richtig delegieren kann. Aber vielleicht würdet ihr es interessant finden, eine Liste von Aufgaben zu sehen wo ihr euch was rauspicken könnt, um auch einen Teil beigetragen zu haben. Ich möchte hiermit daher vor allem auch Leute ansprechen, die bislang nicht schon für YaCy entwickelt haben.

Meine gegenwärtige Planung sieht 3 große Punkte vor:
- parser/Unicode/Snippet - Problematik -> korrekter Umgang mit Sonderzeichen
- verbesserte DHT-Verteilung / neue Strategie (multi-Targets) -> höhere Gesamtkapazität bei höherer Antwortgeschwindigeit
- überarbeitetes remote-Crawling (multi-Packets) -> höhere Gesamtgeschwindigkeit des Netzes beim Crawling

für diese Hauptpunkte habe ich bereits sehr viele Unterpunkte feinstrukturiert, und dabei könnten sich auch einfache Einzelaufgaben ergeben. Bevor ich also ein neues Unterforum im Entwicklungsbereich mache würde ich euch gerne dafür sensibilisieren, hier mitzumachen. Zusammen erreichen wir Entwicklungsziele schneller als wenn ich diese Dinge alleine mache, und sich für euch nur Aufgaben im 'Fahrwasser' ergeben, wenn einer was dort sieht.
Interessiert?
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon thq » Di Okt 23, 2007 5:09 pm

- parser/Unicode/Snippet

Ein Bereich den ich mir noch nie angeguckt habe und für mich zu komplex

- verbesserte DHT-Verteilung

Bin mir nicht sicher was genau Du da ändern möchtest, frage mich aber ob es zur Zeit wichtiger ist als andere Sachen

- überarbeitetes remote-Crawling (multi-Packets)

Geht mir weg mit dem Crawler


Sorry, alles keine Bereiche in denen ich helfen könnte oder möchte.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon lulabad » Di Okt 23, 2007 5:37 pm

Find ich eigentlich ein gute Sache.
Wenn es sich dabei um kleinere, in sich geschlossene Aufgaben handelt, wird sich sicherlich der ein oder andere finden, der mal was macht.
Wenn vereinzelte Arbeiten zudem nicht umbedingt ein Java/YaCy-Studium vorraussetzen, könnte es sogar passieren, dass ich mir mal was schnappe.

Ich würde sagen, dass es auf jeden Fall ein Versuch wert ist.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon PCA42 » Di Okt 23, 2007 5:44 pm

Ich bin leider auch kein Freiwilliger, was die Programmierung angeht. Ich versuch grad, Java zu lernen, da werd ich mal besser noch nicht an Yacy rumfummeln. Soll ja schließlich laufen. Was ich aber vor einiger Zeit per PM schon mal angeboten habe, ist die Dokumentation mal zu überarbeiten. Da ich WoW inzwischen aufgegeben habe, ist jetzt auch Zeit vorhanden. Ich werde also in den nächsten Tagen mir das Wiki mal anschauen.
PCA42
 

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon apfelmaennchen » Di Okt 23, 2007 7:14 pm

für den Punkt "parser/Unicode/Snippet - Problematik -> korrekter Umgang mit Sonderzeichen" könnte ich mich ggf. erwärmen, da ich einen korrekten Umgang mit Sonderzeichen sehr wichtig finde. Bevor ich zusage, würde ich aber gerne erst die erwähnte Feinstrukturierung sehen wollen.

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon Bardioc » Sa Okt 27, 2007 3:30 am

Die Idee ist gut. Da würde ich auch mal reinschauen und mich, wenn möglich - also Zeit und Verständnis vorausgesetzt-, beteiligen.
Ob aber ein Forum das richtige Werkzeug ist um Aufgaben zu definieren und deren Ausführung zu verfolgen möchte ich bezweifeln.
Ich benutze dazu Mantis. Das ist einfach, sicher und übersichtlich aber wenn nötig auch hochkomplex. Zuletzt habe ich auch über eine Möglichkeit gelesen Mantis direkt über spezielle Kommentare beim Commit durch SVN zu steuern.

Zur Vorstellung der Feinspezifikationen ist ein Forum aber sicher geeignet.
Bardioc
 
Beiträge: 58
Registriert: Do Jun 28, 2007 5:07 am
Wohnort: Riedstadt

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon daburna » Sa Okt 27, 2007 10:44 am

Da Java für mich eher so entfernt ist wie der Saturn, werde ich wohl bei der Übersetzung bleiben. Ich finde aber, so eine Stückelung und kleine Ziele wichtig und sinnvoll. Für mich war es bisher nicht nachzuvollziehen, was angegangen wird und wo die Ziele im jeweiligen Release liegen.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon Nathan » So Okt 28, 2007 1:57 pm

Hm, sorry, aber die Frage kann ich mir jetzt doch nicht verkneifen:

Hieß es nicht mal, Orbiter könne allein wesentlich schneller arbeiten und bräuchte kein Entwicklerteam? ;)

Stand doch in etwa so im alten Forum. Da bin ich mal gespannt, wann wieder eine Gruppe bereitwilliger Helfer fliegen bzw. gehen :D
Nathan
 
Beiträge: 38
Registriert: Mi Jun 27, 2007 6:26 pm

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon daburna » So Nov 11, 2007 9:28 pm

Orbiter, hast du die Help.html auf der Liste? Da sind ziemlich viele Sachen drauf, die inzwischen veraltet sind. Mir persönlich fehlt da gerade die Zeit, um das konsequent anzugehen.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon Orbiter » So Nov 11, 2007 11:14 pm

ich weiss gar nicht welche Help.html du gerade meinst, aber als ich diesesn Thread begonnen habe hatte ich im Sinn das ich bestimmte Themen, die gerade im kommenden Release angegangen werde in kleine Unterpunkte zerlege, an denen sich Freiwillige leicht beteiligen können, auch ohne allzu große Java-Kenntnisse (obwohl diese hilfreich wären).

Beispielsweise der Punkt "parser/Unicode/Snippet": hier wäre der erste Schritt, Testdateien zu erzeugen. Wir bräuchten eine Menge von html-Seiten, die einen Text, der im Browser identisch gerendert wird, durch verschiedene Encodierungsarten im html darstellt. Beispielsweise lassen sich Umlaute durch ISO-Codierungen oder durch html-code in html einbetten, und euch fallen möglicherweise noch andere Methodiken ein. Im zweiten Schritt gehen wir dann an den html-parser.

Wer würde mal schauen wie optimale Testdateien aussehen (Inhalt aber begrenzen, zum Testen reichen sicherlich wenige oder nur eine Zeile pro codierunsart)?
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon daburna » Mo Nov 12, 2007 11:51 am

daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon Orbiter » Mo Nov 12, 2007 3:42 pm

stimmt das wäre auch ein guter Punkt.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon daburna » Mo Nov 12, 2007 6:09 pm

Ja, da braucht man auch keine java-Kentnisse für und die Seite ist so nicht aktuell.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon Lotus » Mi Dez 19, 2007 4:58 pm

Orbiter hat geschrieben:- parser/Unicode/Snippet - Problematik -> korrekter Umgang mit Sonderzeichen

Das wärme ich einmal wieder auf, denn hier wäre es akut benötigt: viewtopic.php?p=3948#p3948
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon apfelmaennchen » Do Jan 03, 2008 8:08 pm

Ich habe gerade mal angefangen, mich mit dem Thema Testdateien für Sonderzeichen zu befassen.

Aus meiner Sicht müsste der HTML-Parser ja folgendes tun:
1) Zeichencodierung ermitteln (ist diese nicht z.B. mit meta content="text/html; charset=ISO-8859-1" explizit angegeben ist das eine nicht triviale Aufgabe)
2) Text von in 2) ermittelter Codierung nach Unicode (UTF8 / UTF16) konvertieren (ich meine da gibt es in JAVA eine Klasse für)
3) HTML-maskierte Zeichen suchen und durch Unicode ersetzen
4) Unicode-Text parsen und Index erstellen

zu 3)
Ich würde empfehlen mit den gängisten (im Deutschen: äöüÄÖÜß) zu beginnen, da man das über eine Tabelle lösen kann (die beliebig erweiterbar ist) und so zumindest einen schnellen Erfolg erziehlen könnte.

Mir fallen konkret drei mögliche HTML-Maskierungen ein (siehe Beispiel: "Ö"):
a) nach Name
b) mit Unicode (dezimal)
c) mit Unicode (hex)

Beispiel: Ö O Umlaut Ö Ö Ö

Eine Tabelle für a) und b) findet sich bei: http://de.selfhtml.org/html/referenz/zeichen.htm, eine Umrechnung auf hex-Werete sollte nicht so schwer sein.

Gruß!
apfelmaennchen

EDIT: http://cgi.w3.org/cgi-bin/html2txt zeigt eine funktionierende Konvertierung von HTML nach Text (Unicode).
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon Orbiter » Sa Jan 05, 2008 12:29 am

schon mal sehr gut, kann jemand einzelne Testseiten mit nur wenigen Zeichen mit je verschiedenen Encodings online stellen?
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon apfelmaennchen » Sa Jan 05, 2008 12:11 pm

Also an Test-Dateien soll es nicht scheitern.
Ich habe mal ein paar abgelegt unter http://yacy.kicks-ass.net:8080/share/unicode/

Dort sind zumindest die Sonderzeichen: äöüßé in verschiedenen Kodierungen enthalten - mir ist nicht ganz klar, worauf Du hinaus willst Orbiter?

Ein interessantes Phänomen zeigt die Datei http://yacy.kicks-ass.net:8080/share/un ... 859-1.html
Firefox erkennt sie lokal von der Platte geladen korrekt als ISO-8859-1 kodiert. Lädt man diese hingegen von obigen Link via yacy, wird sie UTF-8 kodiert und damit falsch (ohne Sonderzeichen) angezeigt.

In der Datei http://yacy.kicks-ass.net:8080/share/un ... k-hex.html habe ich noch eine zusätzliche Besonderheit eingebaut, da die hex-Darstellung Groß- und Kleinschrift sowie führende Nullen zulässt: &#x3d = &#x3D = &#x003d !!

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon daburna » Sa Jan 05, 2008 12:28 pm

apfelmaennchen hat geschrieben:Ein interessantes Phänomen zeigt die Datei http://yacy.kicks-ass.net:8080/share/un ... 859-1.html
Firefox erkennt sie lokal von der Platte geladen korrekt als ISO-8859-1 kodiert. Lädt man diese hingegen von obigen Link via yacy, wird sie UTF-8 kodiert und damit falsch (ohne Sonderzeichen) angezeigt.

Wir bei mir unter Ubuntu in Firefox 2 ohne YaCy so angezeigt: "Das Apfelm�nnchen f�hrt mit dem �ffentlichen Bus ins Caf�. Jeder wei�, dass das zu einer geringeren CO2-Belastung f�hrt als mit dem Auto zu fahren." Richtig?
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon apfelmaennchen » Sa Jan 05, 2008 12:52 pm

Na dann speicher die Datei mal via rechtem Mouse-Klick auf der Platte lokal und lad sie dann wieder via Datei öffnen...
Jetzt sollte die Datei korrekt angezeigt werden (klappt bei mir zumindest unter Ubuntu und Mac OS X).
Wenn Du die Datei erst mit Firefox lädst (Klick auf den Link) und dann auf Datei speichern gehst sieht das ganze bei mir ebenfalls wie von Dir beschrieben aus!

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon daburna » Sa Jan 05, 2008 2:14 pm

Ah ja, funktioniert. Interessantes Verhalten.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon Copro » Mo Jan 07, 2008 6:05 pm

Das Verhalten ist ganz normal beim Firefox - bzw. kenne ich das von meinen gehosteten Seiten auf einem Standard Apache. Der Webserver schickt hier schonmal "text/html; charset=UTF-8" als MIME Type der URL
http://yacy.kicks-ass.net:8080/share/unicode/ISO-8859-1.html

Dies sieht man auch im Firefox selber unter Ansicht - Zeichenkodierung - Unicode (UTF-8). Wenn man manuell auf Westlich (ISO-8859-1) umschaltet wird der Text richtig angezeigt.

Wobei auch das doppelte Apostroph in der ersten Content-Type Zeile Probleme bereiten kann wenn der Type stimmt:
content=""text/htm;
Code: Alles auswählen
<meta http-equiv="content-type" content=""text/htm; charset=ISO-8859-1" ">
<meta http-equiv="content-type" content="application/xhtml+xml; charset=ISO-8859-1"/>
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am

Re: Arbeitspunkte für alle zum mitmachen

Beitragvon apfelmaennchen » Mo Jan 07, 2008 8:36 pm

Danke für den Hinweis, hab die Zeile entsprechend angepasst:

Code: Alles auswählen
<meta http-equiv="content-type" content="text/html; charset=ISO-8859-1"/>


Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast