19.12.2013, 12:05
Wenn in den Wegpunktnamen Umlaute sind schaut die Darstellung verbastelt aus, wenn man die Datei von der Festplatte öffnet.
Ansehen kann man sich das wenn man diese Datei "korrigiert20120103_Leimbach_Tiefenort_Leimbach.html"
aus http://forum.routeconverter.com/thread-1...l#pid11192 downloadet, abspeichert und von der Platte im Browser öffnet (file:///…).
In der Datei heisst es:
der Inhalt der Datei sollte also UTF-8 sein. Ich dachte mir auch nichts schlimmes, arbeitet Java doch intern mit UCS-2 a.k.a. UTF-16.
Der Webseitenquelltext ist aber kein UFTF-8, es ist iso8859-1, was man ganz einfach daran sehen kann, dass es so mit recode repariert werden kann:
Das Problem tritt vielleicht auch auf, wenn die Datei von einem Webserver bezogen wird, denn dann "sticht" m.E. der Content-Type-Header:oder wie auch immer der Serververwalter das gesetzt hat. Direct von einem Webserver, der für den Download setzt sollte es gehen, nach dem abspeichern nicht mehr.
Da die meisten Webserver und Webspaces heutzutage unter UTF-8 laufen, bin ich für die Beibehaltung des und das Recodieren des Inhalts der Datei.
Anbei die Datei aus dem anderen Thread und die recoded-Variante.
Ansehen kann man sich das wenn man diese Datei "korrigiert20120103_Leimbach_Tiefenort_Leimbach.html"
aus http://forum.routeconverter.com/thread-1...l#pid11192 downloadet, abspeichert und von der Platte im Browser öffnet (file:///…).
In der Datei heisst es:
Code:
<meta http-equiv="content-type" content="text/html; charset=utf-8"/>
Der Webseitenquelltext ist aber kein UFTF-8, es ist iso8859-1, was man ganz einfach daran sehen kann, dass es so mit recode repariert werden kann:
Code:
cat korrigiert20120103_Leimbach_Tiefenort_Leimbach.html| recode iso8859-1..utf8 > korrigiert20120103_Leimbach_Tiefenort_Leimbach.recoded.html
Das Problem tritt vielleicht auch auf, wenn die Datei von einem Webserver bezogen wird, denn dann "sticht" m.E. der Content-Type-Header:
Code:
Content-Type:text/html; charset=UTF-8
Code:
Content-Type:text/html; charset=iso8859-1
Da die meisten Webserver und Webspaces heutzutage unter UTF-8 laufen, bin ich für die Beibehaltung des
Code:
<meta http-equiv="content-type" content="text/html; charset=utf-8"/>
Anbei die Datei aus dem anderen Thread und die recoded-Variante.