文字コードについて知る
Webサイトローカライズ(ホームページ翻訳)やソフトウェアローカライズ、または多言語翻訳において欠かせないポイントの 1 つに、文字コードに関する理解があります。
文字コードは普段何気なく使用している Webサイト(ホームページ)、電子メールなど、さまざまなところで設定され、文字化けの不安もなく使用されています。
文字情報によるコミュニケーションでは、文字化けは伝達能力がゼロ(もしくはマイナス)になりますので、ビジネスでは致命的といわざるを得ません。
そのためにも、基本的な文字コードをしっかりと理解していくことが必要です。文字コードすべてを網羅することは難しいですが、ここでは現在の代表的な文字コードについて、重点的に見ていきましょう。
特に、母国語である日本語の文字コードを知っておくことはプラスになってもマイナスになることはありません。
文字コードは、英語をはじめとするシングルバイト圏、日本語をはじめとするダブルバイト圏などの、多言語間での言語表示において大変重要なポイントでもあります。
文字の種類
文字は、日本工業規格(JIS 規格)により決められ、以下の 4 つの種類に分けられています。
- JIS カナ
- JIS 漢字
- JIS ローマ字
- JIS 補助漢字
文字コードの種類
現在、主な文字コードの種類は以下の 4 種類が挙げられます。
- シフト JIS(=MS 漢字コード)
- JIS コード
- EUC コード
- UniCode(ユニコード)
これらの文字コードについて、それぞれ順にご説明します。
文字コードの種類 | 解説 |
---|---|
シフト JIS コード | Microsoft 社が決定した文字コードです。Windows にて使用されています。シフト JIS コードではエスケープシーケンスを使用しません。 |
JIS コード | JIS コードは 7 ビットで表現されます。文字の切り替えにはエスケープシーケンスを使用しています。JIS(日本工業規格)によって標準化されている文字コードです。身近なところでは、インターネットで日本語の電子メールなどで使用されています。 |
EUC コード | UNIX 環境で使用されていることが多い文字コードです。複数バイト言語の各国の文字コードを規定しており、エスケープシーケンスは使用していません。特に、日本語の EUC コードを「EUC-JP」などと表現することがあります。各国の文字コードなので、日本語 EUC だけでなく、韓国語 EUC や中国語 EUC などもあります。 |
GB コード、BIG5 コード | GB コードは中国語の簡体字を表記する際に使用する文字コードで、BIG5 コードは中国語の繁体字を表記する際に使用する文字コードです。 |
UniCode(ユニコード) | ユニコード・コンソーシアムという組織によって定められた文字コードです。あらゆる言語のすべての文字を 16 ビットで表現し、この 1 つの文字コードをベースにして、多国語のコード処理を行ないます。主要な言語はほぼ網羅されています。 |
私たちは以上のような文字コードを、普段はまったく意識せずに使用しているわけです。 しかし、貴社の Web サイトや、E メールでのやり取りから始まり、ソフトウェアをローカライズする際、またWeb サイトをローカライズする際などにも文字コードは重要なポイントなのです。
※エスケープシーケンスとは、エスケープコードと制御文字の組み合わせで表現する、正規表現の特殊文字のこと
このように、事前に文字コードを確認しておくことで「ローカライズ後に文字化けしてしまった」ということのないようにしましょう。
ローカライズサービスについて
Webサイトローカライズ(ホームページ翻訳)、ソフトウェアローカライズ、UI 翻訳、UI ローカライズ、または多言語翻訳などのローカライズサービスについては、以下のページも合わせてご覧ください。
トライベクトルの翻訳・ローカライズ サービス
英語、日本語だけでなく、韓国語や中国語など、各言語はそれぞれ異なる文字コード体系を持っています。
翻訳後には、異なる言語になるわけですから、その文字コードも変更になるのは言うまでもありません。文字コードの変更をはじめとしたローカライズにおける主要なポイントを正しく抑えた上で、翻訳やローカライズ サービスをご提供しています。
Webサイトローカライズ(ホームページ翻訳)、ソフトウェアローカライズ、多言語翻訳に関してはお気軽にお問い合わせ下さい。