概要
日本語表記のための漢字・図形の符号化文字集合(の規格)。7ビット及び8ビットの2バイトで表現。「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」(7-bit and 8-bit double byte coded KANJI sets for information interchange)。
図形文字は94×94=8834の区点に非漢字524字、第一水準漢字2965字、第二水準漢字3390字の6879字が定義されている。
コード表
構造
JIS X 0208は区(row)と点(cell)の交点に文字を定義する。各区に対して80の点が定義され、1つの文字は「区/点」で表される(コードポイント)。
たとえば1区のコード表は以下のとおり。
区 | 点 | +0 | +1 | +2 | +3 | +4 | +5 | +6 | +7 | +8 | +9 | +A | +B | +C | +D | +E | +F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0 | 、 | 。 | , | . | ・ | : | ; | ? | ! | ゛ | ゜ | ´ | ` | ¨ | ||
16 | ^ |  ̄ | _ | ヽ | ヾ | ゝ | ゞ | 〃 | 仝 | 々 | 〆 | 〇 | ー | ― | ‐ | / | |
32 | \ | ~ | ∥ | | | … | ‥ | ‘ | ’ | “ | ” | ( | ) | 〔 | 〕 | [ | ] | |
48 | { | } | 〈 | 〉 | 《 | 》 | 「 | 」 | 『 | 』 | 【 | 】 | + | - | ± | × | |
64 | ÷ | = | ≠ | < | > | ≦ | ≧ | ∞ | ∴ | ♂ | ♀ | ° | ′ | ″ | ℃ | ¥ | |
80 | $ | ¢ | £ | % | # | & | * | @ | § | ☆ | ★ | ○ | ● | ◎ | ◇ |
割当て
1区~8区 | 記号・英数・かな |
16区~47区 | 第1水準漢字 |
48区~84区 | 第2水準漢字 |
1区~8区の内訳は以下のようになっている。
1~2区 | 記号 |
3区 | 数字、アルファベット |
4区 | 平仮名 |
5区 | 片仮名 |
6区 | ギリシャ文字 |
7区 | ロシア文字 |
8区 | 罫線文字 |
例
JIS X 0208の一部を例示すると以下のとおり。「あ」は4区2点、「愛」は16区6点となる。
区\点 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | … | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
2/1 | 2/2 | 2/3 | 2/4 | 2/5 | 2/6 | 2/7 | 2/8 | 2/9 | 2/A | … | ||
1 | 2/1 | 、 | 。 | , | . | ・ | : | ; | ? | ! | … | |
2 | 2/2 | ◆ | □ | ■ | △ | ▲ | ▽ | ▼ | ※ | 〒 | → | … |
3 | 2/3 | … | ||||||||||
4 | 2/4 | ぁ | あ | ぃ | い | ぅ | う | ぇ | え | ぉ | お | … |
5 | 2/5 | ァ | ア | ィ | イ | ゥ | ウ | ェ | エ | ォ | オ | … |
6 | 2/6 | Α | Β | Γ | Δ | Ε | Ζ | Η | Θ | Ι | Κ | … |
7 | 2/7 | А | Б | В | Г | Д | Е | Ё | Ж | З | И | … |
8 | 2/8 | ─ | │ | ┌ | ┐ | ┘ | └ | ├ | ┬ | ┤ | ┴ | … |
9 | 2/9 | … | ||||||||||
: | : | : | : | : | : | : | : | : | : | : | : | |
15 | 2/F | … | ||||||||||
16 | 3/0 | 亜 | 唖 | 娃 | 阿 | 哀 | 愛 | 挨 | 姶 | 逢 | 葵 | … |
17 | 3/1 | 院 | 陰 | 隠 | 韻 | 吋 | 右 | 宇 | 烏 | 羽 | 迂 | … |
18 | 3/2 | 押 | 旺 | 横 | 欧 | 殴 | 王 | 翁 | 襖 | 鴬 | 鴎 | … |
: | : | : | : | : | : | : | : | : | : | : | : |
参考~JIS X 0208の文字コード
区点の仕組み
区/点と列/行
JIS-X0208は2バイトで文字を表現する。2バイトのうち1バイトを「区」(row)とし、第2バイトを「点」(cell)とする。
1バイトを上位ビットと下位ビットに分け、上位ビットを「列」、下位ビットを「行」とする。
1バイトが7ビットの場合、000|0000~111|1111の128パターンが表現可能だが、このうち34パターンが1バイト文字として先取りされる。このため、区及び点を表現できる1バイトのパターン数は94となる。
列/行
2バイト文字の1バイトのパターンの表現方法。1バイトを上位3 or 4ビット(列)と下位4ビット(行)に分け、それぞれの10進数表記を'/'
で区切って「列番号/行番号」とする。たとえば7ビットの場合、011|1011は3/11(3列11行)となる。
1バイトが7ビットの場合、000|0000~111|1111すなわち0/0~7/15で、その数8×16=128が全体のパターン数となる。但し後述のように、このうち34パターンが1バイト文字に先取りされるため、2バイト文字として使用可能なのは128−34→94パターンとなる。
1バイト文字
1バイト文字には以下の34文字(制御文字とSPACE)が予約される。
制御文字
0列(0/0~0/15)と1列(1/0~1/15)の32個の領域には制御文字を配置する(CL領域)。
SPACE
2/0にはSPACE(空白)を配置する。
DELETE
7/15にはDELETE(抹消)を配置する。
7ビット2バイトの場合
上位7ビットを区、下位8ビットの1バイトを点とする。
- CL領域(0/0~1/15)の制御文字
- 2/0のSPACE
- 7/15のDELETE
- GL領域(2/1~7/14)の図形文字
→2バイトで94×94区点
8ビット2バイトの場合
8ビット2バイトの場合、7ビット2バイトに対して、1バイト目の最上位ビットが加わる。
最上位ビットが0の場合、7ビット2バイトと同じで、区や点のパターンは0/0~7/15の128パターン。
- CL領域(0/0~1/15)の制御文字
- 2/0のSPACE
- 7/15のDELETE
- GL領域(2/1~7/14)の図形文字
→2バイトで94×94区点
一方、1バイト目の最上位ビットが1の場合は、区や点のパターン数は8/0~15/15でパターンを以下のように割り当てる。
- CR領域(8/0~9/15)の制御文字
- 10/0、10/15は不使用
- GR領域(10/1~15/14)の図形文字
→2バイトで94×94区点
GR領域の考え方はGL領域と同じで、94×94の区点で8836個の文字を配置可能。