コンピューターが扱うのは数値だけではありません。文字や画像、音声など、あらゆる情報を0と1だけで扱います。どういう決まりで0と1に置き換えるのか、簡単に見ておきましょう。

コンピューターは文字をどう扱うか

 コンピューターの世界では、文字コードというルールを使って文字を扱います。例えば、以下に示すASCIIコード表に従うと、「A」は「1000001(10進数の65)」、「a」は「1100001(10進数の97)」になります。なお、ASCIIコードは1バイト(正確には7ビット)と決められているので、128種類の文字しか表現できません。

 ひらがなやカタカナ、漢字など、たくさんの種類を使う日本語には1文字を2バイトで表すJISコードやシフトJISコード、処理系によってはEUCコードが使われています。

ASCIIコード表
[画像のクリックで拡大表示]

 しかし、文字コードの種類が増えると何かと不都合が生じます。その代表例が「文字化け」です。Webページを開いたときに、意味不明の文字が表示されたことはありませんか? これは文書を作るときの文字コードと、その文書を解釈するときの文字コードが異なるときに起こります。

 文字を扱うときは、どの文字コードを使っているかを意識するようにしましょう。UTF-8やUTF-16は、文字化けのような不都合を解消するために考えられた文字コード(*1)です。

*1 もう少し正確に表現すると、「UTF-8」や「UTF-16」はUnicodeで定義されている文字を符号化する方法です。