脱力系備忘録BloG ホーム »「Unicode」と「UTF-8」は違うもの

「Unicode」と「UTF-8」は違うもの  

とは知りませんでした。

恥ずかしながら、拙者、今まで同じ物だと思っていたでござるよ。
この「Unicode」と「UTF-8」の違いを理解するためのキーワードが
文字
文字集合
符号化方式
です。


文字とは
あいうえお亜意宇江尾♂♀└┌├(๑◔‿◔๑)
上記のような、いわゆる「文字」です。

文字集合
どの「文字」を取り扱うかと言う、文字のグループ化の名前。
(例)Unicode、ASCII、ISOなど

符号化方式
文字集合で決めた文字をデータ化する方法の取り決め。
(例)UTF-8、UTF-16など


例えるなら

文字コードとは魚料理とは
●文字集合
・Unicode
・ASCII
・ISO
など
※違うグループに同じ文字が入る
●魚の種類
・白身魚
・回遊魚
・青背の魚
・出世魚
など
※違うグループに同じ魚が入る
●符号化方式
・UTF-8
・UTF-16
など
●調理方法
・刺身
・焼き
・煮つけ
など


かな?
つまり、文字コードというのは、「Unicode」の「UTF-8」(一般的には「UTF-8」とだけ)と言うことができますが、「Unicode」という種類の文字コードはない。
「Unicode」には他にも「UTF-16」「UTF-32」などの文字コードがある。ということです。
※ただし、マイクロソフトは「UTF-16」のことを「Unicode」と言う暗黙の了解があるとか何とかまたかよゲイツいいかげんにしろよとかなんとか。


これって動画形式の「コンテナ」と「コーデック」にも似てますね。
AVI」という「コンテナ」に、「MPEG-1H.263H.264」などの「コーデック」で符号化したデータが入る。

「文字集合」が「コンテナ」。
「符号化方式」が「コーデック」。
うん。

うん?
っていうか、そのまんまか?!日本語と英語の違いだけでおなじことか?!
関連記事

category: 他開発関連

この記事へのコメント

コメントの投稿

非公開コメント

コメントは全て管理人が内容を確認してから表示されます(非公開コメント除く)。
内容によっては表示されない場合がありますことご了承願います。

プロフィール

お問い合わせ

最新記事

最新コメント

▲ Pagetop