ユニコードの憂鬱

ユニコードUTF-8は素晴らしいと思うものの、形が似た様なのがたくさん登録されていて悩みますね。
REDUCEのテキスト ( REDUCE User's Manual ) からごく最初の方に出てくる、


u := (x+y+z)ˆ2;


と言うのをi41CX+のCASにコピーアンドペーストしたら、エラーがでる。手で入力すると大丈夫なのでじっと見ると、^ ( 山形記号、サーカムフレックス ) が違う。印刷物で使っているのは、Spacing Modifier Letters のところにある、U-02C6 を使っているのに対して、アスキー文字の ^ ( 山形記号、サーカムフレックス ) は U-005E でした。


よくユニコードは漢字などの異体字を整理する目的があったのに、結局すべて登録される方向に動いてしまい失敗だったみたいな事を言われますが、数式の方が問題かも知れない。先日は、⊦ ( トじるし、アペンド ) で悩みました。横棒の長いのと短いのと両方あります。

そんなこともあるせいか、グーグルで数式記号で検索すると多くの場合「見つかりません」になります。∞ ( 無限大、インフィニティ ) も「見つかりません」でした。ブログ内検索では引っかかります。

〜 ( から、波ダッシュ、チルダ ) あたりも問題で、ほんとは全部違うようです。波の形も違うし。日本語のフォントは U+301C、相似記号は波の形が逆で、U+223D、チルダの形の数学記号は、U+223C。=> 〜     ∽    ∼