【IT】コンピューターで全漢字使用可に 6万字コード化

スポンサーリンク



1 :しじみ ★:2017/12/25(月) 06:08:16.97 ID:CAP_USER.net
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、
コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、
6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、
ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、
「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、
コードが割りふられているのは1万字だけで、コードが無く、
コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、
ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、
コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、
経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、
このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、
地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、
戸籍では尊重されているがコンピューターが追いついていなかった。
文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

続きはソースで

NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

2 :名無しのひみつ:2017/12/25(月) 06:16:31.64 ID:PYyQSCbE.net

漢字って一字で意味を持つ単語
中国はどうしてんだ

3 :名無しのひみつ:2017/12/25(月) 06:20:34.08 ID:4W2qbdqm.net

ユニコードで使えないなら終わり

4 :名無しのひみつ:2017/12/25(月) 06:26:32.02 ID:Ac/xGhhU.net

草○歓喜

5 :名無しのひみつ:2017/12/25(月) 06:31:22.61 ID:irOM8Cqr.net

龍龍
龍龍

6 :名無しのひみつ:2017/12/25(月) 06:34:57.95 ID:4W2qbdqm.net

定義したところで新しい漢字が創作されるのが漢字という形な、定義するなら
今後増えるだろう創作文字がいくらあっても許容できる仕様でないなら、
ユニコードのコード割り当てにある明治大正昭和平成()の次の元号文字が割り当て
コードの空きがない問題をまず考えようよ、元号が変わるのは来年だし

http://quizknock.com/heisei-owaruto-daikonran/
ユニコードは明治→大正→昭和→平成→株式会社(㍿)となっていて、株式会社のコードを捨てる?

7 :名無しのひみつ:2017/12/25(月) 06:42:07.95 ID:1hFrhwM1.net

>>6
連番にする意味は大してない。
プログラムを組むときはコードを意識なんてしていられないし、条件分岐が必要になるから。

8 :名無しのひみつ:2017/12/25(月) 06:43:45.16 ID:1hFrhwM1.net

>>2
簡体字は簡体字で使う漢字を登録済み。
繁体字も同じく登録済み。

9 :名無しのひみつ:2017/12/25(月) 06:52:13.63 ID:42m1Es7/.net

やればできるじゃない

10 :名無しのひみつ:2017/12/25(月) 06:53:23.71 ID:4W2qbdqm.net

>>7
1文字のためだけに他の文字コードの途中に割り付けるとかないから、
不連続すぎる割り当てとか後で変更されるようなコード
たとえば韓国のユニコード割り当てがユニコードのバージョンでコードそのものが違うように
そういうことはあってはならない、ユニコードのバージョンで条件分岐で対処すればいいだろうけど
それは明らかに変だろ、

11 :名無しのひみつ:2017/12/25(月) 07:04:14.78 ID:7VMa6lis.net

フォントが対応してくれなきゃ

12 :名無しのひみつ:2017/12/25(月) 07:05:07.21 ID:l2YP9E8l.net

中国の人名とか地名とかに使う漢字もコード化しろよ。
新聞に○辺に□とか書いてるだろ。

13 :名無しのひみつ:2017/12/25(月) 07:05:07.35 ID:WBU+WGbR.net

結局シフトJISやEUCなどの環境がある限り、意味がない

14 :名無しのひみつ:2017/12/25(月) 07:07:19.48 ID:bV8VduO/.net

コンピューターで

って漠然としてんなぁ

15 :名無しのひみつ:2017/12/25(月) 07:09:19.70 ID:S2x8lA8r.net

超漢字ってあったよな

16 :KUM(゚_゚)N :2017/12/25(月) 07:24:40.50 ID:waokJkij.net

(っ゚(ェ)゚)っ[草剛]

17 :名無しのひみつ:2017/12/25(月) 07:32:23.96 ID:f1yolDrv.net

>>15
あれ、漢字は何万文字入ってるんだろ。

18 :名無しのひみつ:2017/12/25(月) 07:40:21.59 ID:tW6xk3HF.net

文字コードは頭痛い

19 :名無しのひみつ:2017/12/25(月) 08:03:55.56 ID:mxsKAgvk.net

闔閭范蠡

20 :名無しのひみつ:2017/12/25(月) 08:23:03.50 ID:kgsYK7xR.net

この話題、科学のカテゴリかな?

21 :名無しのひみつ:2017/12/25(月) 08:25:36.76 ID:uwemIeOO.net

>>10
文字コードを連番にするとヘボいプログラマが文字コードが連番であるという前提でコード書くので後で困る。

22 :名無しのひみつ:2017/12/25(月) 08:34:31.35 ID:4W2qbdqm.net

>>21
日本語か日本語じゃない文字かを判定するときに、1文字だけ飛んだら困るだろ

23 :名無しのひみつ:2017/12/25(月) 08:37:39.61 ID:u7AEvU85.net

>>1
漢文講義するとき助かる

24 :名無しのひみつ:2017/12/25(月) 08:38:44.49 ID:u7AEvU85.net

>>20
その発想は無かった

25 :名無しのひみつ:2017/12/25(月) 08:43:35.83 ID:Koo+dNa5.net

俺の名字も正確なのないから、簡易字つかってるな。

26 :名無しのひみつ:2017/12/25(月) 08:44:04.88 ID:TmjlzdAO.net

興興
興興

27 :名無しのひみつ:2017/12/25(月) 08:49:52.76 ID:b2JSO5kB.net

またスマホが重くなるな

28 :名無しのひみつ:2017/12/25(月) 10:21:12.47 ID:nL/i0RO0.net

>>25
それで納得できるなら、さっさと当用漢字を使った自分の戸籍を作ったほうが良いぞ

29 :名無しのひみつ:2017/12/25(月) 12:18:05.99 ID:WRQDj8Y0.net

超漢字は18万
TRONに追いついてすらいない

30 :名無しのひみつ:2017/12/25(月) 13:13:00.11 ID:6ElEffzj.net

>>1
板違い死ね

31 :名無しのひみつ:2017/12/25(月) 16:12:39.75 ID:dw9MfVUg.net

>>29
外国語入れてだろ

シェアする

  • このエントリーをはてなブックマークに追加

フォローする