Üleminek UTF-8-le

Vana aasta viimasel päeval sai otsustatud viimaks ometi Triinuleht täielikult UTF-8 kodeeringu peale üle viia. Nüüd siis saan ma lõpuks kirjutada internatsionaalselt:

Жили-были три бандита:
Гитлер, Сталин и Никита.
Один резал, другой бил,
третий голодом морил.

Kuigi jah, vaevalt et nüüdsest hakkavad Triinulehte täitma lugematud read hispaania-, araabia- ja koreakeelsed tekstid - aga vähemasti pole selle võimalikuks saamine enam takistatud.

Tehnilisest küljest

Esimene samm üleminekul ISO-8859-15 kodeeringult oli otsida mõni väike programm, mis failide ühest formaadist teise konverteerimise enda peale võiks võtta. Peale pisukest otsimist leidsingi täiesti sobiliku Pythoni skripti, mis selle ülesande suurepäraselt lahendas.

Andmebaasi poolne külg oli triinulehel õnneks üsna väike ning hakkama sai natukese PHP ja paari copy-paste´ga. Siis mõned segased hetked, kus kõik paistis metsa jooksvat, sest tundus et andmebaas ei taha sugugi UTF-8 formaadis teksti vastu võtta... ...kõik lahenes aga kenasti, kui avastasin, et viga oli ikkagi vaid minu kiiruga kirjutatud skriptis - selle parandamise järel laabus aga kõik suurepäraselt.

Veel positiivset kirjavahemärkide maailmast

Ühtlasi sai siis nüüd kõik kirjavahemärgid, mis olid seni üles märgitud HTML-i &xxxx; süntaksit kasutades said nüüd asendatud unicode´i vastetega ning vähe sellest, et tibakene vähenes failide suurus - ka kirutud Netscape 4, kes polnud kuidagi hakkama saanud minu &ldquot;-ide ja &rdquot;-idega, mõistis unicode´i märke lausa suurepäraselt.

Nüüd said ka jutumärgid eesti keelele sobilikuma vormi (alustav jutumärk all ja lõpetav üleval) ja minu süda muutus kergemaks ja maailm muutus paremaks ja lapsed Aafrikas jätsid näljakisa ja...

Noh võibolla mitte päris seda kõike, aga igatahes paremal ja tublimal moel uude aastasse :)

Kirjutatud 31. detsembril 2004.

Arvamused ja täiendused

Ma olen kodeeringute konvertimiseks kasutanud peamiselt Java SDK-s leiduvat native2ascii nimelist programmi. native2ascii ja natuke batch/shell skriptimist ja saadki kataloogitäie failide kodeeringud muudetud.

Seda ütles 19. novembril 2005 kell 17:58 Erki Esken.

Lausu oma mõtteid

Nimi:

Koduleht:

e-post:

Lubatud HTML: <a href="" rel="" title="">, <strong>, <em>, <code>, <blockquote cite="">, <abbr title=""> ja <acronym title="">. Reavahetused ja lõigud lisatakse automaatselt.

Kindlasti tuleks määrata oma nimi. Kodulehe ja e-posti aadress on valikulised, kusjuures e-posti aadressi lehele üles ei panda - see on vaid selleks, kui te kohe mitte ilma selle lisamiseta ei saa.

Et võidelda spämmiga, palun sisesta siia lahtrisse tekst "pole spämm", (to fight spam, please enter text "not spam"):

Trinoloogialeht

Eesti Trinoloogide Maja. Eesti trinoloogiahuviliste avalik kogunemiskoht. info@triin.net

Peamenüü

Samal teemal

RSS, RSS kommentaarid, XHTML, CSS, AA