“文字コードを確実に判断するのだ”な記事。

 ウェブアプリで文字コードを簡単かつ確実に判別する方法 (さくらインターネット創業日記)

 文字コードの問題はマルチバイト圏のみで、しかも特に日本は不幸な歴史があったりして複雑ですけど、案外本場のUS圏とかだと認識されてなくてトラブる事がちらほら、なんてのは今は昔、ともまだまだいかないみたいですね。昔にはなかった事が影響してきたりして。

 この手の話は創世記の頃から(おおげさ)たくさんありまして、CGIとかサーバでいろいろする時にはEUCが鉄板なのに、クライアントはほぼ間違いなくSJIS的なものがデフォじゃないか時代には出力するHTMLの最初の方にコメントアウトして漢字を埋め込むみたいなネタもありましたよ、「乳」とか埋めちゃうの。