"falsche" URL Hashes

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

"falsche" URL Hashes

Beitragvon thq » Do Apr 03, 2008 3:45 pm

Ich bin gerade etwas am Aufräumen und dabei ist mir aufgefallen das in meiner URL-DB Einträge gibt die einen falschen Hash-Wert haben.

Gespeichert war zum Beispiel...
http://www.heise.de/autos/bildergalerien/3869/9 mit N3AzdvP290Ec, es sollte aber N3AzdvP290EA sein.

Das kann ja eigentlich nur durch kaputte DBs entstehen. Kann man das beim auslesen nicht überprüfen ?

So wie es jetzt ist wird die URL in ungünstigsten Fall 2x gespeichert.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: "falsche" URL Hashes

Beitragvon miTreD » Mo Apr 07, 2008 3:29 pm

Wie kann ich das testen?
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: "falsche" URL Hashes

Beitragvon DanielR » Mo Apr 07, 2008 3:31 pm

Warum weißt du das es falsch ist, YaCy aber nicht??

edit von MitRed: Hab' Deinen Beitrag hierhin geschoben.
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: "falsche" URL Hashes

Beitragvon thq » Mo Apr 07, 2008 4:44 pm

Ich habe mir sowas ähnliches wie minimizeUrlDB geschrieben wo ich den Hash nochmals gegengeprüft habe.

Deswegen würde ich beim auslesen der URLs so eine Überprüfung zumindest beim DHT mit einbauen.


OT: woran erkennt man das eine URL gelöscht ist, wir da ein Flag gesetzt ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: "falsche" URL Hashes

Beitragvon miTreD » Mo Apr 07, 2008 5:01 pm

thq hat geschrieben:OT: woran erkennt man das eine URL gelöscht ist, wir da ein Flag gesetzt ?
URLs werden nicht gelöscht, nur die RWIs.
http://forum.yacy-websuche.de/viewtopic.php?f=5&t=868&p=5876
Orbiter hat geschrieben:Die Zahl der URLs kann jedoch nicht abnehmen. Hier sehe ich nur die Chance, den über eine Zeitgrenze zu löschen.
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: "falsche" URL Hashes

Beitragvon thq » Mo Apr 07, 2008 5:11 pm

miTreD hat geschrieben:
thq hat geschrieben:OT: woran erkennt man das eine URL gelöscht ist, wir da ein Flag gesetzt ?
URLs werden nicht gelöscht, nur die RWIs.
http://forum.yacy-websuche.de/viewtopic.php?f=5&t=868&p=5876
Orbiter hat geschrieben:Die Zahl der URLs kann jedoch nicht abnehmen. Hier sehe ich nur die Chance, den über eine Zeitgrenze zu löschen.
Beim starten kann man sowas sehen "DEBUG: 18003 deleted entries in col.000.list" (URL-DB)

Also muss man doch irgendwie feststellen können das eine URL gelöscht ist, oder entsteht diese Meldung durch auslesen der USED UNUSED Counter ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: "falsche" URL Hashes

Beitragvon Orbiter » Di Apr 08, 2008 8:24 am

ich weiss nicht wie es bei dir zu gelöschten URLs kommt, könnte sein das es mit einer der minimize-Methoden geschieht.

Es gibt bei den Flex-Tabellen tatsächlich einen UNUSED Counter, der die Länge der deleted-queue angibt. Diese Queue ist eine einseitig verkettete Liste, die innerhalb der Flex-Datei anstelle der ursprünglichen URL-Einträge geschrieben wird. Dadurch können gelöschte Einträge wiederverwendet werden, dann wird die Kette einfach gekürzt und das freie Feld beschrieben.

In den Eco-Tabellen läuft das anders: da wird immer das Element an top-Position der Datei in die zu löschende Lücke umkopiert, und die Datei danach gekürzt. Daher kann die schrumpfen und es gibt gar keine gelöschten/leere Einträge.

Zu deinem Posting ganz oben mit dem falschen Hash muss ich mir mehr Zeit nehmen um das zu analysieren, bin noch nicht dazu gekommen. Kannst du mir dazu noch ein paar mehr Beispiele geben für 'verrutschte' hashes, maximal 3 reichen bestimmt. Mir geht es dabei um die Erkennung eines Bitmusters in einem Flag-Byte.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "falsche" URL Hashes

Beitragvon thq » Di Apr 08, 2008 9:55 am

Was meinst Du genau mit Beispiele, nur die beiden Hashes (ok, falsch) ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: "falsche" URL Hashes

Beitragvon Orbiter » Di Apr 08, 2008 10:20 am

thq hat geschrieben:Gespeichert war zum Beispiel...
http://www.heise.de/autos/bildergalerien/3869/9 mit N3AzdvP290Ec, es sollte aber N3AzdvP290EA sein.

sowas zum Beispiel
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "falsche" URL Hashes

Beitragvon thq » Di Apr 08, 2008 11:15 am

Orbiter hat geschrieben:
thq hat geschrieben:Gespeichert war zum Beispiel...
http://www.heise.de/autos/bildergalerien/3869/9 mit N3AzdvP290Ec, es sollte aber N3AzdvP290EA sein.

sowas zum Beispiel
Ja, das kam öfters vor das es nur hinten ein wenig verschoben war, es gab aber auch Fälle da war der Hash von der ersten Stelle an schon verkehrt.

Wenn Du meinst das es was bringt werde ich aber mal eine Liste erstellen.

Ich glaube aber das dieses Problem nur bei Flex-Tabellen auftreten kann.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: "falsche" URL Hashes

Beitragvon thq » Mi Apr 09, 2008 12:58 am

Der erste Hash ist der falsche aus der DB.
Code: Alles auswählen
0w3dbY3Akg4A r0p96Y3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Anleitung%20Geb%C3%A4rdenvideo&url=/
3csS0Y3Akg4A L1J-YY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Beh%C3%B6rden&url=/Content.Node/appl/
b3EpXQ0_XT_c b3EpXQ0_XT_Q http://www.xxp.tv/programm/
Czrq-Y3Akg4A cBgFMY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Beh%C3%B6rden&url=/Content.Node/appl/microhilfetexte/microhilfe_behoerdenverzeichnis.html
fxvIVY3Akg4A 5yqHtY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Seite%20weiterempfehlen&url=/
gUVqNY3Akg4A TsLiXY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Newsletter&url=/Content.Node/appl/microhilfetexte/
hVd0MY3Akg4A n0nvIY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Seite%20weiterempfehlen&url=/Content.Node/
I2ZHwY3Akg4A AboTzY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Tastatur-Kurzbefehle&url=/
iu9beY3Akg4A Q3iAjY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Tastatur-Kurzbefehle&url=/Content.Node/appl/
JTasIY3Akg4A fWGtGY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Beh%C3%B6rden&url=/Content.Node/
KgC4Gm6EFzdA ca9eKm6EFzdA http://www.infosys.tuwien.ac.at/cgi-bin/searchPD.pl?advisor=%Dustdar%&type=%&title=&tools=&Submit=Search
l-wuLQ8CYNGe l-wuLQ8CYNGS http://www.iwatchtoomuch.tv/
mqSVKAUXCj9a 3EkUSAUXCj9a http://www.alltheshopping.com/de/%3Fbuscar%3DServer&sa=l&ai=BLuIrkZvtQuS-CbqQswGSv7idCfSeiwrSqO6VAYzd8gTQ9wcQAhgCIK5OKAUwAEDkEUiiOVCaqLH4A5gBr06gAbGdgf8DyAEB&num=2
MTYtL3JRUcvA pqoI33JRUcvA http://www.wien.gv.at/stadtplan/link.asp%3FCmd=link&lang=en&Adr_Str=donauinsel&ResUser=640&WidthUser=1000&Layer4=1&Layer2=1&Layer1=1&Layer5=1&Layer3=1&Layer6=1
nQ-GVuRlyQ8Q swBD2uRlyQ8Q http://packages.debian.org/cgi-bin/download.pl?arch=alpha&file=pool/main/d/dumputils/dumputils_0.4-6_alpha.deb&md5sum=3041ba4be3f8a046a0c59198d37689a0&arch=alpha&type=main
OF5_KY3Akg4A K7BzEY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Anleitung%20Geb%C3%A4rdenvideo&url=/Content.Node/appl/
oZpaBuRlyQ8Q i9z2tuRlyQ8Q http://packages.debian.org/cgi-bin/download.pl?arch=alpha&file=pool/main/libd/libdbd-sqlite2-perl/libdbd-sqlite2-perl_0.33-4_alpha.deb&md5sum=833e3300a5e934f78c1c3adc763a031d&arch=alpha&type=main
pChLxuRlyQ8Q G0vBauRlyQ8Q http://packages.debian.org/cgi-bin/download.pl?arch=hurd-i386&file=pool/main/libf/libforms1/libforms1_1.0-6_hurd-i386.deb&md5sum=1e9c083fd2c4dfc57fd36668dc1bbc84&arch=hurd-i386&type=main
pEOnQuRlyQ8Q erLwjuRlyQ8Q http://packages.debian.org/cgi-bin/download.pl?arch=amd64&file=pool/main/libf/libforms1/libforms1_1.0-6_amd64.deb&md5sum=2ee6dc0431305268e5be5b4512d63556&arch=amd64&type=main
Q42NvY3Akg4A SjyVRY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Anleitung%20Geb%C3%A4rdenvideo&url=/Content.Node/appl/microhilfetexte/
SJWg4Y3Akg4A K-UoxY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Seite%20weiterempfehlen&url=/Content.Node/appl/
t1p8luRlyQ8Q pViPduRlyQ8Q http://packages.debian.org/cgi-bin/download.pl?arch=amd64&file=pool/main/a/aptitude/aptitude_0.2.15.9-6_amd64.deb&md5sum=173b0b0cd15498312476e6f899baa5a6&arch=amd64&type=main
tANSquRlyQ8Q cMxXTuRlyQ8Q http://packages.debian.org/cgi-bin/download.pl?arch=i386&file=pool/main/libq/libquota-perl/libquota-perl_1.4.9-2_i386.deb&md5sum=ebbfacbcdeb42450a3c8cedc7c6a2e51&arch=i386&type=main
tMOeduRlyQ8Q AmUhcuRlyQ8Q http://packages.debian.org/cgi-bin/download.pl?arch=all&file=pool/main/p/pylint/pylint_0.7.0-1_all.deb&md5sum=0675bd3e0ee192188e96103fc0b4aa1d&arch=all&type=main
TtWIa3JRUcvA fywku3JRUcvA http://www.wien.gv.at/stadtplan/link.asp%3FCmd=link&lang=en&Adr_Str=rathausplatz&ResUser=640&WidthUser=1000&Layer4=1&Layer2=1&Layer1=1&Layer5=1&Layer3=1&Layer6=1
uvBuDuRlyQ8Q YikqXuRlyQ8Q http://packages.debian.org/cgi-bin/download.pl?arch=m68k&file=pool/main/e/egenix-mx-base/python2.4-egenix-mxstack_2.0.6-1_m68k.deb&md5sum=85c9fa2ce4b90890e5856d73d659e37a&arch=m68k&type=main
v77VjY3Akg4A SlYu9Y3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Tastatur-Kurzbefehle&url=/Content.Node/appl/microhilfetexte/
vpF3cuRlyQ8Q iSbg9uRlyQ8Q http://packages.debian.org/cgi-bin/download.pl?arch=i386&file=pool/main/v/vacation/vacation_3.3.0_i386.deb&md5sum=94ad37212fc5204c74c46a0eb1016513&arch=i386&type=main
v_fBYuRlyQ8Q Ltn4buRlyQ8Q http://packages.debian.org/cgi-bin/download.pl?arch=arm&file=pool/main/v/vacation/vacation_3.3.0_arm.deb&md5sum=3fbc2e71f3eba90e5927ac5c625838f6&arch=arm&type=main
wzYYOQnPH9Fd wzYYOQnPH9FR http://www.prisonplanet.tv/
Ya7izY3Akg4A EorhOY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Seite%20weiterempfehlen&url=/Content.Node/appl/microhilfetexte/microhilfe_empfehlen.html
YbGrQuRlyQ8Q V78MJuRlyQ8Q http://packages.debian.org/cgi-bin/download.pl?arch=ia64&file=pool/main/e/eject/eject_2.0.13deb-13_ia64.deb&md5sum=18617b95582a2326c8dadd447c98b5ef&arch=ia64&type=main
yeivYY3Akg4A VeVeNY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Beh%C3%B6rden&url=/Content.Node/appl/microhilfetexte/
zpHVmj5oqDCc zpHVmj5oqDCQ http://www.uber.tv/envisioning/clippings/
Zr3MIY3Akg4A bnMHSY3Akg4A http://www.help.gv.at/cgi-bin/gen_help_text.pl?titel=help.gv.at%20-%20Seite%20weiterempfehlen&url=/Content.Node/appl/microhilfetexte/
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: "falsche" URL Hashes

Beitragvon thq » Do Apr 24, 2008 12:19 pm

Mein DHT-Peer "D201GLY2-1024-400MB" hatte ~9,6 Millionen Links, davon hatten 133411 Links einen falschen Hash, die extremsten (Hash komplett falsch) waren von Juni/Juli 2007.

Die Daten, falscher/richtiger Hash und Links sind gepackt 5,2MB. Wenn die einer haben möchte einfach melden.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: "falsche" URL Hashes

Beitragvon thq » Mi Apr 30, 2008 3:48 pm

Mindestens 1 Peer verteilt hier falsche Daten. Obwohl ich im April eher selten Online war wurden mir 20855 URLs mit eine falschen Hash geschickt. Das sollte immer gegengeprüft werden weil so auch einfach nur Mist verteilt werden kann.

Code: Alles auswählen
__I1j7gSjg8d __I1j7gSjg8Z http://bangornews.com/
__-K2Q6D3KTd __-K2Q6D3KTZ http://www.themoneypost.com/
__s7-Y_Xzcpc __s7-Y_XzcpQ http://www.pirg.org/consumer/pdfs/cupirgschoicepoint.pdf
__sk53pnYtLd __sk53pnYtLZ http://anatbel.livejournal.com/
_0DReN0SY7we _0DReN0SY7wa http://www.boerse-express.com/pages/655698/kommentare
_0DzZUiQ35rc _0DzZUiQ35rA http://www.gulex.dk/bransjelist/infrar%f8d/1.htm
_0-FdDO-FdFd _0-FdDO-FdFR http://kerneltrap.org/node/7568/print
_0if7Qesp8od _0if7Qesp8oZ http://www.robotroom.com/legal.html
_0ltlapTX4jd _0ltlapTX4jB http://www.meine-stadt.de/duisburg/home/einkaufen
_0NQ1Zbd1b1c _0NQ1Zbd1b1Y http://seattlepi.nwsource.com/antarctica/photos/
_0VQx_a_bYbd _0VQx_a_bYbR http://de.wikipedia.org/wiki/Opera
_0VXrf9DpHDc _0VXrf9DpHDQ http://www.marville.org/cgi-bin/news.pl?user=marville&&command=list&order=thread&newsgroup=/messages/general/general
_0wklliSzinc _0wklliSzinQ http://www.tv3.co.nz/News/Story/tabid/
_1Ab0cPdfRzd _1Ab0cPdfRzZ http://www.angelfire.com/me/music17/detierra.html
_1X80_7z07rc _1X80_7z07rA http://www.nzz.ch/nachrichten/schweiz/aktuell/
_2cj4UiQ35rc _2cj4UiQ35rA http://www.gulex.dk/bransjelist/freight/1.htm
_2MB9QW0Uz7c _2MB9QW0Uz7A http://www.root.cz/
_2mV_NUmmdLc _2mV_NUmmdLY http://www.flight13.com/laden/852790381-emo-post-punk/neu
_2se8_rwtdfd _2se8_rwtdfR http://en.wikipedia.org/wiki/Edmund_Sixtus_Muskie
_2ta07UYtqte _2ta07UYtqta http://jovefrancisco.com/
_2up8Cp6LvZc _2up8Cp6LvZY http://lacoquette.blogs.com/
_3hbhXZs94Nc _3hbhXZs94NE http://www.metajedrez.com.ar/cartasdemama.htm
-_3nG80SY7we -_3nG80SY7wa http://www.boerse-express.com/matrix/omv
_3PHnW0SY7we _3PHnW0SY7wa http://www.boerse-express.com/cat/boersegang/view/50
_4_Vl3GMgj5d _4_Vl3GMgj5R http://fr.wikipedia.org/wiki/Cap_Gris-Nez
_4c9eUiQ35rc _4c9eUiQ35rA http://www.gulex.dk/bransjelist/antique%5frocking%5fhorses/1.htm
_4E0m7EoEeId _4E0m7EoEeIZ http://distrowatch.com/4677
_4Sjf_a_bYbd _4Sjf_a_bYbR http://de.wikipedia.org/wiki/Portal:Mainz
_4tPS72UEDMd _4tPS72UEDMZ http://www.mondotimes.com/2/topics/3/news/1/8090
_5G3E_rwtdfd _5G3E_rwtdfR http://en.wikipedia.org/wiki/Dera_Doon
_5G5E4VTddRc _5G5E4VTddRY http://www.flickr.com/groups/pentaxfr/
_6ET_A-i5eac _6ET_A-i5eaA http://www.lastfm.de/music/R.E.M./_/So.+Central+Rain+%28I%27m+Sorry%29
_6JTVNVTddRc _6JTVNVTddRY http://www.flickr.com/photos/25122904%40N02/
_6k8o9YNoKjc _6k8o9YNoKjA http://kritik-und-kunst.blog.de/2008/04/01/sehr-altes-gedicht-3983323
_6uIBY3VVYOd _6uIBY3VVYOZ http://wordpress.com/tag/united-nations/
_7AB4wMAB2gd _7AB4wMAB2gB http://www.heisetreff.de/v/seite-8/datum-2008-04-25/
_7H5hIgg-GEc _7H5hIgg-GEY http://arthritis.about.com/od/euflexxa/Euflexxa_Injections_Information_and_Treatment_Indications.htm
_7iyHvRTb1zd _7iyHvRTb1zB http://www.meinestadt.de/mannheim/branchenbuch/brkat/100-19055-19065
_7scBgRFsEYc _7scBgRFsEYA http://lists.ee.ethz.ch/postgrey/msg01970.html
_7xAin8tGkUe _7xAin8tGkUa http://www.typicallyspanish.com/news/publish/travel.shtml
_81t1LYLLGke _81t1LYLLGkS http://blog.spielerkabine.net/index.php/2008/01/28/
_8gcTI4MyYkf _8gcTI4MyYkT http://www.anglicancommunion.org/acns/news.cfm/2003/5/23/ACNS3447
_8tuTWpTX4jd _8tuTWpTX4jB http://www.meine-stadt.de/aschaffenburg/home
_8UDYrQMdeuc _8UDYrQMdeuQ http://time-management-software.icreon-communication-pvt-ltd.qarchive.org/
_9Oh6_a_bYbd _9Oh6_a_bYbR http://de.wikipedia.org/wiki/Wikipedia:Geh_von_guten_Absichten_aus
_9slF7OenmyA _9slF7Oenmyc http://easy-dsl.eu/bestellen.html
_9WvDUiQ35rc _9WvDUiQ35rA http://www.gulex.dk/bransjelist/kokous/1.htm
_9YdhUOKqvCB MoB9WUOKqvCB http://baden-wuerttemberg.uebergebuehr.de/de/aktuell/termine/termin/zeige/termin/20070706/local/?tx_cal_controller%5Bpage_id%5D=1900&tx_cal_controller%5Blastview%5D=list-1900&tx_cal_controller%5Buid%5D=336&cHash=d22c6af991
_A02BA-i5eac _A02BA-i5eaA http://www.lastfm.de/music/The%2BPolice
_A9iuWTA9aiR lQa_ZWTA9aiR http://ndiswrapper.sourceforge.net/mediawiki/index.php?title=List&action=edit&section=21
_AAqe9Rfsgfd _AAqe9RfsgfZ http://diariored.com/blog/001954.php
_AbU02pTX4jd _AbU02pTX4jB http://www.meine-stadt.de/vogtlandkreis/home
_-ABZ3RTb1zd _-ABZ3RTb1zB http://www.meinestadt.de/sachsen/branchenbuch
_aCmnUpZKhjY 7QeNzUpZKhjY http://ruby.dmitriid.com/wiki/index.php/??????%2C_???????_???????_???_???????????
_AfijjCIQG3d _AfijjCIQG3Z http://shauna26.wordpress.com/2008/04/03/
_aq4WUiQ35rc _aq4WUiQ35rA http://www.gulex.dk/bransjelist/carlo%5fgavazzi/
_AvHuP4liIjC _AvHuP4liIje http://www.aerzte-im-netz.eu/app/feeds/neurologen_und_psychiater_im_netz/2007
_b6pZ7kpR4fd _b6pZ7kpR4fZ http://www.comic-covers.com/Marvel/MarvelF-J/FantasticFour/imagepages/image25.html
_b988csidKIA _b988csidKIc http://ec.europa.eu/information_society/industry/comms/index_es.htm
_bG3HNVTddRc _bG3HNVTddRY http://www.flickr.com/photos/kirstydickson/
_BPwhQjpJ9Ec _BPwhQjpJ9EY http://www.cityusa.com/green-bay.html
_bq6pO20ZTPd _bq6pO20ZTPR http://www.stargazing.net/astropc/doc/ecatinfo.html
_BuBGUsidKIA _BuBGUsidKIc http://ec.europa.eu/enterprise/automotive/projects/index.htm
_cAEzzcB7rVc _cAEzzcB7rVY http://www.techtear.com/author/admin/
_CFsnQpTX4jd _CFsnQpTX4jB http://www.meine-stadt.de/rems-murr-kreis/
_cg_AQXWtpKB OvPw7QXWtpKB http://www.asta-marburg.de/index.php?name=PagEd&topictoview=29
_CHXe_375csd _CHXe_375csZ http://novasafo.wordpress.com/2008/03/
_ck_BM51HXTc _ck_BM51HXTQ http://www.r24.org/phuket-info.com/phuket/jwmarriott/
_CTs3pa5_RJf _CTs3pa5_RJb http://www.baseball-reference.com/teams/FLA/1993.shtml
_cwe_aodJZfe _cwe_aodJZfa http://foo.secondlifeherald.com/slh/2007/01/100_position_sl.html
_D5XV_7bX2Jd _D5XV_7bX2JZ http://www.thestreet.com/p/_newtsc/
_DAWbQc0jegd _DAWbQc0jegZ http://www.boinc-wiki.info/Special:Recentchanges
_dc6TQdwB72A jAJXTQdwB72A http://www.b57biker.de/include.php?path=guestbook/viewgb.php&PHPKITSID=d9d9d5b660fe1c2fad774b7b5e3299ea
_di0ooFWMYKc _di0ooFWMYKE http://www.presidencia.gob.ni/310108_OrtegaArroz.html
_DJ17W0SY7we _DJ17W0SY7wa http://www.boerse-express.com/cat/boersegang/view/40
_dn1lUiQ35rc _dn1lUiQ35rA http://www.gulex.dk/bransjelist/knager%e6kker/1.htm
_DrUr9vfY1Hc _DrUr9vfY1HY http://www.volokh.com/posts/1208379052.shtml
_dtPDA-i5eac _dtPDA-i5eaA http://www.lastfm.de/music/The%2BMusic/_/Getaway
_E1E1kXKTcjC _E1E1kXKTcje http://www.fensterzumhof.eu/512/berlin-friedrichshain-boxi-prekaer-awo/
_E1OHQzmnqKc _E1OHQzmnqKA http://www.idg.no/pcworld/
_e6mMfIjd9_c _e6mMfIjd9_Q http://www.eecis.udel.edu/~amer/101.syllabus.S98.ps
_e7zskgg-GEc _e7zskgg-GEY http://arthritis.about.com/b/2005/07/
_E9u0jVWct2c _E9u0jVWct2Q http://advogato.org/proj/Signed%20Envelope%20Sender/
_eF-q7srmPzc _eF-q7srmPzA http://www.ciao.de/Erfahrungsberichte/cien_Nagellackentferner_Lidl__693706
_ETf27MivTzd _ETf27MivTzZ http://stockthoughts.wordpress.com/2008/03/10/
_EUCVNVTddRc _EUCVNVTddRY http://www.flickr.com/photos/her_era/page7/
_F5TjQw4C5fd _F5TjQw4C5fB http://www.preistrend.de/Preisvergleich_Siemens_KI_28_SA50__x7249700A027376.html
_FanpHbly2Bc _FanpHbly2BA http://www.mega.it/eng/egui/monu/musarc.htm
_FHA6_rwtdfd _FHA6_rwtdfR http://en.wikipedia.org/wiki/User_talk:Loyloy102
_FLKRN8akYxC _FLKRN8akYxe http://www.kostenlose-pr.eu/kategorie/film-foto/
_fqbbUnikzzc _fqbbUnikzzY http://elpogoantiguo.blogspot.com/2007_12_01_archive.html
_FR73FPqaRrc _FR73FPqaRrY http://www.iht.com/articles/2008/04/18/business/18stoxfw.php
_FuYsczi3eWA _FuYsczi3eWc http://www.pxp.eu/index.php/author/mathias-kimpl/
_FWIN9RUoSwc _FWIN9RUoSwY http://altera.com/end-markets/wireless/wir-index.html
_FYypQvRVXcc _FYypQvRVXcQ http://www.scip.org/
_g8KCNVTddRc _g8KCNVTddRY http://www.flickr.com/photos/ppalcaide/
_gBH3r4wpCld _gBH3r4wpClZ http://www.vlsi-world.com/component/option%2Ccom_glossary/func%2Cview/Itemid%2C0/catid%2C28/term%2CValidation/
_gksk_a_bYbd _gksk_a_bYbR http://de.wikipedia.org/wiki/Elektronenr%C3%B6hre
_GNJmd3ia6lc _GNJmd3ia6lY http://profile.myspace.com/index.cfm?fuseaction=user.viewprofile&friendid=12577284
_GoK4FgirdOe _GoK4FgirdOa http://boycottnovell.com/2007/12/03/firefox-fud-latest/
_gTA_Prs4s3d _gTA_Prs4s3B http://lana4ka.mylivepage.ru/
_gtwwjxGub_c _gtwwjxGub_Q http://blogs.mediati.org/alex/
_h6DQA-i5eac _h6DQA-i5eaA http://www.lastfm.de/music/Linkin%2BPark
_hDRSG3HVUcd _hDRSG3HVUcZ http://personalbrandingblog.wordpress.com/2007/11/04/brand-autopsy-5-name-that-personal-brand/
_HiIxYr04Stc _HiIxYr04StQ http://www.parliament.vic.gov.au/gloss.html
_HLKYW0SY7we _HLKYW0SY7wa http://www.boerse-express.com/cat/postings/thread/75198
_hlYfKCjc9wd _hlYfKCjc9wR http://nouveau.freedesktop.org/wiki/BadContent
_i0Y3_rwtdfd _i0Y3_rwtdfR http://en.wikipedia.org/wiki/Template:Internet_by_region
_I79jIO-FdFd _I79jIO-FdFR http://kerneltrap.org/mailarchive/linux-kernel/2007/10/2/326919
_I9KiGVkCRPc _I9KiGVkCRPI http://www.parlimen.gov.my/hindex/
_IvIuTZY2Rwc _IvIuTZY2RwQ http://www.linuxtag.org/2008/en/conf/cfp/licenses.html
_j_xnKnR8FGc _j_xnKnR8FGY http://german.about.com/library/definitions/bldef_04_0807.htm
_J34EpLyejec _J34EpLyejeQ http://www.embnet.org/event/2008/06/09
_jnG8A69afYc _jnG8A69afYQ http://syrcom.cua.edu/Hugoye/Vol5No1/HV5N1CRForan.html
_JNXrQw4C5fd _JNXrQw4C5fB http://www.preistrend.de/Preisvergleich_Bosch_PBH_2000_RE_electronic__x7249770304757B02.html
_jvJnQXCn5PA wErtbQXCn5PA http://www.neuwied.de/pfauen-an-anderen-standorten.html?&layout=
_JYOS_a_bYbd _JYOS_a_bYbR http://de.wikipedia.org/wiki/Portal:Europ%C3%A4ische_Union
_k5Xc2PtB0cd _k5Xc2PtB0cB http://blog.werbeplanung.at/
_-KA1QsrmPzc _-KA1QsrmPzA http://www.ciao.de/Kompaktkameras_583495_2-50_eur_bis_99_eur
_KHS6XaUNLbd _KHS6XaUNLbZ http://www.cognetics.com/portfolio/index.html
_KkV3QsrmPzc _KkV3QsrmPzA http://www.ciao.de/Astor_Nagellackentferner_Tucher__512985
_Ky76GZf-LVc _Ky76GZf-LVQ http://stats.bls.gov/oco/oco2008.htm
_Ky9_7fd8h6d _Ky9_7fd8h6Z http://users.livejournal.com/___agentorange/profile
_kzLU3GMgj5d _kzLU3GMgj5R http://fr.wikipedia.org/wiki/Rugby
_L4chNVTddRc _L4chNVTddRY http://www.flickr.com/photos/lukeharby/158660235/in/
_l9mVFyE_g6c _l9mVFyE_g6Q http://www.atp.nist.gov/
_lBEoUiQ35rc _lBEoUiQ35rA http://www.gulex.dk/bransjelist/biograf/
_LBHK0xhQ3cc _LBHK0xhQ3cY http://www.reuters.com/article/worldNews/idUSL0650378120070906
_LFzYQusNRqA _LFzYQusNRqc http://www.esl.eu/statistics/
_lgcV6X1rDec _lgcV6X1rDeY http://www.phpbb.com/support/documentation/3.0/adminguide/acp_users.php
_LKIFGC284Tc _LKIFGC284TY http://www.fsdaily.com/Opposition/Windows_is_on_its_Last_Legs/who_voted
_LkjnwnR8FGc _LkjnwnR8FGY http://german.about.com/b/a/2007_07_18.htm
_lO3IG3HVUcd _lO3IG3HVUcZ http://personalbrandingblog.wordpress.com/2007/10/23/
_LsZ_3GMgj5d _LsZ_3GMgj5R http://fr.wikipedia.org/wiki/Thermom%C3%A9trie
_MAPIY3VVYOd _MAPIY3VVYOZ http://wordpress.com/tag/debatt-och-politik/
_mISPmsidKIA _mISPmsidKIc http://ec.europa.eu/index_ro.htm
_mMDb2neP0pc _mMDb2neP0pQ http://weblogs.asp.net/karstenj/archive/2004/06/25/166334.aspx
_MqbsY5S9EPd _MqbsY5S9EPZ http://www.sparknotes.com/lit/gonewith/section5.rhtml
_Mx9kQsrmPzc _Mx9kQsrmPzA http://www.ciao.de/Gastroback_42503_Health_Smart_Grill__2268717
_Nm_kUiQ35rc _Nm_kUiQ35rA http://www.gulex.dk/bransjelist/sumatra/1.htm
_NM05NALBg8d _NM05NALBg8Z http://boomerangblog.wordpress.com/2008/01/31/new-project/
_NQbvDgb3CeB _NQbvDgb3Ced http://honda-civic.autobazar.eu/card.php?id=499455
_nVOjMOdTLKc _nVOjMOdTLKA http://www.edreams.es/blog/category/herramientas/
_nWhBbGYPFBd _nWhBbGYPFBZ http://en.allexperts.com/e/p/ps/pseudepigraphy.htm
...
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: "falsche" URL Hashes

Beitragvon Orbiter » Mi Apr 30, 2008 4:15 pm

danke Thomas, hab das mal ausgewertet. Dazu muss man wissen was die Stelle, an der der Hash unterschiedlich ist bedeutet.
Die hinterste Stelle ist eine Mischung aus 3 Attributen:
bit 5: protocol-flag für http
bit 2-4: domain-id
bit 0-1: domain-len
das ganze ist nur 6 bit lang, weil das ein base64-Character ergibt.
Die Auswertung zeigt, dass immer nur die domain-id betroffen ist, und wenn die Werte unterschiedliche sind ist einer von beiden '111', d.h. hat intern die id 7. Die steht für 'Intranet-Adresse'. Diese id wird immer dann vergeben, wenn man an der IP sieht das es zum Intranet gehört, oder wenn ein DNS-resolve ergebnislos bleibt. D.h. diese URLs haben offenbar fälschlicherweise einen intranet-Hash bekommen.

Nun gibts eine gute und eine schlechte Nachricht:
die schlechte ist, das wohl ein Bug dazu führt dass eine URL fälschlicherweise als intranet-Adresse erkannt wird, und dieser auch noch 'durchflutscht', d.h. obwohl das freeworld-Netz für Intranet-Adressen gesperrt ist wird sie angenommen.
die gute ist, dass man solche falsche Hashes problemlos erkennen kann und zukünftig blockieren, bzw. auch filtern kann. Ausserdem kann man davon ausgehen dass dies möglicherweise kein geziehlter Angriff mit falschen Hashes ist.

Ich muss jetzt mal genau gucken was man machen muss um hier mehr Sicherheit bei der Bearbeitung der URLs zu bekommen.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "falsche" URL Hashes

Beitragvon thq » Mi Apr 30, 2008 4:35 pm

Das meiste dürfte damit gefunden werden es gibt aber auch noch solche...
Code: Alles auswählen
_A9iuWTA9aiR lQa_ZWTA9aiR http://ndiswrapper.sourceforge.net/mediawiki/index.php?title=List&action=edit&section=21
doV7XQXWtpKB 4xwkZQXWtpKB http://www.asta-marburg.de/index.php?name=PagEd&topictoview=13
Ich finde wir sollten jede DHT-URL gegenrechnen, es kann ja auch einer absichtlich beliebte Links (Hashes) mit falschen Links verschicken.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: "falsche" URL Hashes

Beitragvon Orbiter » Mi Apr 30, 2008 7:16 pm

ich denke es stimmt das das Gegenrechnen in manchen Fällen Sinn macht, in anderen nicht. Immerhin ist das recht aufwendig, es muss ein DNS-lookup gemacht werden, und der sollte ggf. mit Hilfe von Parallelisierung laufen, denn man könnte ja auch DNS-traps bauen, wo selbst implantierter DNS-Server absichtlich blockiert. In privaten Netzen macht es keinen Sinn weil man sich ja wohl nicht selbst ein Bein stellt. Wir brauchen also eine netz-globale Konfiguration für so einen Check, und eine individuelle Möglichkeit den zu übergehen.

Was man auf jeden Fall machen kann sind 'billige' Tests, also solche die keinen DNS-lookup brauchen. Das wäre bei denen oben mit falscher Intranet-ID ganz leicht.

Zu den weiteren Beispiel-Hashes: die unterscheiden sich in den ersten 6 bytes, das ist der Pfad hinter der Domain. Ich tippe mal auf falsche Normierung, man könnte die Dinger ja auch ohne post-Argumente betrachten. Da muss man sehen ob die richtige Normierung verwendet wird, und ob das schon immer so war oder mal geändert wurde.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "falsche" URL Hashes

Beitragvon thq » Mi Apr 30, 2008 8:24 pm

Ich glaube das dass mit dem DNS zuweit gehen würde.

Wichtiger würde ich finden das dass empfangen von RWI und URLs zusammengelegt wird damit die falschen oder geblockten URLs aus den RWI vor dem speichern gelöscht werden. Das ist zwar etwas aufwendig, dürfte aber YaCy aber kaum belasten weil es ja nur wenige Daten sind, verhindert aber "unresolved ULRs".
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: "falsche" URL Hashes

Beitragvon Orbiter » Do Mai 01, 2008 8:50 am

thq hat geschrieben:Ich glaube das dass mit dem DNS zuweit gehen würde.

Das wurde aber bisher so gemacht um erkennen zu können ob ein Domainnamen eine Intranet- oder Internet-Domain bezeichnet. Ich weiss jetzt nicht ob das unbedingt notwendig ist, oder ob es ausreicht zunächst zu testen ob die tld in einer der bekannten Internet-tlds passt. Das habe ich nun mal mit SVN 4751 eingebaut, d.h. damit sollten massiv DNS-Abfragen wegfallen. Ein weiterer positiver Effekt ist, das auch getestet wird ob der URL-hash die Intranet-Kennung hat, und entsprechend solche URLs ablehnt. Das sollte den Effekt haben das die von dir gefundenen 'falschen' hashes in Zukunft abgelehnt werden sollten.

thq hat geschrieben:Wichtiger würde ich finden das dass empfangen von RWI und URLs zusammengelegt wird damit die falschen oder geblockten URLs aus den RWI vor dem speichern gelöscht werden. Das ist zwar etwas aufwendig, dürfte aber YaCy aber kaum belasten weil es ja nur wenige Daten sind, verhindert aber "unresolved ULRs".

Das Zusammenlegen habe ich absichtlich vermieden damit nicht URLs übertragen werden die dem Empfänger schon bekannt sind. Es ist aktuell so das erst die RWI empfangen werden, der Zielpeer nachguckt welche URLs er noch braucht und die in seiner Antwort schickt. Daraufhin schickt der Sender die noch fehlenden URLs. Damit das immer klappt schaut der Sender vorher nach ob er die URLs auch tatsächlich hat. So war jedenfalls die initiale Implementierung und wenns nicht so läuft ist es ein Bug. Auf jeden Fall sollte diese Konstruktion gleichzeitig minimalen Traffic und vollständige Konsistenz der Daten sicherstellen.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "falsche" URL Hashes

Beitragvon thq » Do Mai 01, 2008 9:54 am

Orbiter hat geschrieben:
thq hat geschrieben:Wichtiger würde ich finden das dass empfangen von RWI und URLs zusammengelegt wird damit die falschen oder geblockten URLs aus den RWI vor dem speichern gelöscht werden. Das ist zwar etwas aufwendig, dürfte aber YaCy aber kaum belasten weil es ja nur wenige Daten sind, verhindert aber "unresolved ULRs".

Das Zusammenlegen habe ich absichtlich vermieden damit nicht URLs übertragen werden die dem Empfänger schon bekannt sind. Es ist aktuell so das erst die RWI empfangen werden, der Zielpeer nachguckt welche URLs er noch braucht und die in seiner Antwort schickt. Daraufhin schickt der Sender die noch fehlenden URLs. Damit das immer klappt schaut der Sender vorher nach ob er die URLs auch tatsächlich hat. So war jedenfalls die initiale Implementierung und wenns nicht so läuft ist es ein Bug. Auf jeden Fall sollte diese Konstruktion gleichzeitig minimalen Traffic und vollständige Konsistenz der Daten sicherstellen.
Das war mir bekannt und soll ja so bleiben, nur so wie es zur Zeit ist werden ja die RWIs komplett gespeichert, also auch mit den URL Hashes die falsch oder geblockt wurden.

Ich würde es besser finden wenn transferURL.class wegfallt und YaCy und die empfangenden RWIs am ein Thread übergibt der dann die fehlenden URLs anfordert und dann die unerwünschten URL-Hashes aus den RWIs löscht. Wie schon geschrieben ist das bestimmt etwas Arbeit aber die sauberste Lösung was den Datenbestand betrifft.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: "falsche" URL Hashes

Beitragvon Orbiter » Do Mai 01, 2008 6:03 pm

so könnten dann Junior-Peers keine RWIs mehr verschicken.

Dir gehts ja richtigerweise darum dass es keine unaufgelöste URL-Referenzen nach unvollständigem Transfer gibt. Das kann man aber auch anders erreichen, indem es bei dem Einpflegen der empfangenen RWIs unterscheidet ob die URLs da sind, und nur diese in die DB schiebt. Die anderen müssten gepuffert werden bis die weiter angeforderten URLs eintreffen. Macht Sinn und könnte ich machen, momentan aufgrund anderer Dinge die für den Linuxtag wichtig sind aber eher später.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "falsche" URL Hashes

Beitragvon geo-snap » Fr Mai 02, 2008 10:32 am

Habe eben solche Einträge im Log gehabt:
Code: Alles auswählen
W 2008/05/02 11:22:18 PLASMA crawlReceipt: RECEIVED wrong RECEIPT (the host 'www.escp-eap.eu' is local, but local addresses are not accepted) for hash Tviuby08FlPc from peer meRI4GyngnOC
   URL properties: {hash=Tviuby08FlPc,url=b|aHR0cDovL3d3dy5lc2NwLWVhcC5ldS9mci9waWVkLWRlLXBhZ2UvZW1haWwtZGlyZWN0b3J5Lw,
descr=b|RW1haWwgRGlyZWN0b3J5,author=b|
YWFjc2IgYWNjb3JkcyBhbWJhIGFwcHJlbnRpc2FnZSBiZXJsaW4gYnVzaW5lc3MgY29tbWVyY2UgY29udGludWUgZCdleGNoYW5nZXMgZGUgZGlwbG9
tYW50cyBlLWJ1c2luZXNzIGVjb2xlIGVxdWlzIGVzY3AtZWFwIGV1cm9wZSBldXJvcMOpZW5uZSBmaW5hbmNlIGZvcm1hdGlvbiBncmFuZGUgaW50ZX
JuYXRpb25hbCBsb25kb24gbWFkcmlkIG1hbmFnZW1lbnQgbWFya2V0aW5nIG1hc3TDqHJlcyBtYmEgbXVsdGljdWx0dXJhbCBwYXJpcyBwcm9ncmFtb
WVzIHJlY2hlcmNoZSBzY2hvb2wgc3DDqWNpYWw,tags=b|,ETag=b|,mod=20080502,load=20080502,fresh=20080502,referrer=null,
md5=0000000000000000,size=13748,wc=1036,dt=h,flags=AAAQAA,lang=eu,llocal=296,lother=6,limage=1,laudio=0,lvideo=0,lapp=0}


Stehen die evtl. damit im Zusammenhang?
geo-snap
 
Beiträge: 69
Registriert: Do Jun 28, 2007 10:53 am

Re: "falsche" URL Hashes

Beitragvon Orbiter » Fr Mai 02, 2008 10:37 am

ja, das 'c' am Ende des Hashes lässt darauf schliessen, dass der eu-domain ein falscher, localhost-getaggter hash zugewiesen wurde und nun gefiltert wird.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "falsche" URL Hashes

Beitragvon geo-snap » Fr Mai 02, 2008 11:18 am

Habe gerade nochmal nachgesehen. Tritt bei Peers mit Version < 4550 auf, da war die EU-TLD noch nicht mit drin.
geo-snap
 
Beiträge: 69
Registriert: Do Jun 28, 2007 10:53 am

Re: "falsche" URL Hashes

Beitragvon thq » Mo Mai 05, 2008 9:28 pm

geo-snap hat geschrieben:Habe gerade nochmal nachgesehen. Tritt bei Peers mit Version < 4550 auf, da war die EU-TLD noch nicht mit drin.
Zur Zeit verschickt aber fast jeder Peer der schon länger dabei ist falsche Daten die er vielleicht mit DHT eingesammelt hat.

2 Fragen:

1. Wann wird der URL-Hash berechnet, wenn die URL escaped oder unescaped ist ?

2. Wie wird die URL gespeichert, escaped oder unescaped ?

Ich hoffe mal das wir die URLs unescaped speichern und erst beim auslesen escapen, weil sonst im extrem Fall der Speicherplatz für die URL um ~2/3 gekürzt ist.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: "falsche" URL Hashes

Beitragvon Orbiter » Mo Mai 05, 2008 9:44 pm

was meinst du mit escaped?
guck doch in die yacyURL.java, da siehst du wie der hash berechnet wird.
Natürlich aus den 'Rohdaten', da ja tld, domain, subdomain, Pfad etc. alles einzeln betrachtet wird.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "falsche" URL Hashes

Beitragvon thq » Mo Mai 05, 2008 9:57 pm

Ich meine die beiden Funktionen escape() und unescape() aus yacyURL.java. Ich habe da ja schon geguckt, bin mir aber nicht sicher ob irgendwo vor der Hash-Berechnung die URL da durchgeschickt wird. Oder speichern wird die wirklich so wie die bei uns ankommt ?

Und wenn ja, warum, gibt es Probleme wenn wir die URL mit unescape() speichern und mit escape() auslesen ?

Mit 'Rohdaten' meinst du das was man von Server bekommt, es also möglich ist das wir URLs mit '&' und '&amp;' in den DBs haben können ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste

cron