UTF-2000 Project

Last modified: Mon Dec 20 23:21:23 JST 1999

現在の最新版は XEmacs UTF-2000 0.12 (柏原) ( XEmacs 21.2.19 への patch ) です。


UTF-2000 Project って何?

UTF-2000 Project とは特定の文字符号に依存しない 文書表現・処理・交換のための枠組を開発するための project です。

この project における主な研究対象は、 符号化法 (Character Encoding Scheme; CES) ではなく、 文字のさまざまな属性や『意味』を 特定の文字符号に依存せずに表現することです。 つまり、利用者が表現したいテキストにあわせて自由に符号化文字集合 (Coded Character Set; CCS) を定義・編集可能な枠組を作ろうという訳です。

既に存在する CCS を用いて利用者が自由に CES を定義することは従来の Mule において既に実現されており、 実際に対象とするテキストにあわせて 異なる文字符号を利用することが可能になっています。 つまり、従来の Mule でも CCS を単位に利用者が自由にテキストの表現を定義・変更可能であった訳です。 UTF-2000 Project では これをさらに一歩進めて、CCS 単位ではなく文字単位でも定義・変更可能にしようという訳です。

UTF-2000 ではこの目標を実現するために 文字に関するデータベースを直接利用・編集可能な テキスト処理系を開発します。 符号空間としては UTF-8 もしくは UCS-4 の構造を基本とし、 この空間の中で利用者が自由に文字を割り当て可能な実装を開発します。 初期状態ではこの空間は ISO/IEC 10646 に適合した形で割り当てられます。 即ち、#x00000000 〜 #x0000FFFF は基本多言語面 (BMP) であり、#x00010000 〜 #x0001FFFF は拡張非漢字面であり、#x00020000 〜 #x0002FFFF は拡張漢字面であり、このように 先頭から 17 面分は Unicode と同一であり、 それ以外の文字は私的領域に割り当てるような形になっています。 ISO/IEC 2022 の図形文字集合用や諸橋漢字などのために、#x00E00000 〜 #x00FFFFFF を利用することもしています。 しかしながら、利用者は設定によって これらの構造を無視した文字の割り当ても可能にします。 また、そうした場合でも、他の CCS 定義のテキスト表現との間でテキストを適切に交換可能にします。

計画

第1期においては XEmacs を元に、文字列・buffer 表現として UTF-8, 文字表現として UCS-4 の符号空間を持った実装を開発し、UTF-2000 におけるテキスト処理における問題点を洗い出し、基礎技術を確立します。 その後、GNU Emacs を元により簡素な実装も行います。

第2期においては、UTF-2000 実装での user interface やその他の application を開発し、XEmacs/Emacs UTF-2000 実装の実用化を行います。

第3期には GNU libc, Gnome, Guile などの異なった環境・条件での実装を開発し、OS 全体の UTF-2000 化に関する検討を行います。


Mailing List

UTF-2000 project に関する議論等は UTF-2000 mailing list で行っています。

UTF-2000 project に参加したい方、UTF-2000 実装を使ってみたい方、UTF-2000 実装についての質問・要望、その他 UTF-2000 に関する議論に参加したい方をお待ちしています。

UTF-2000 mailing list に参加希望の方は utf-2000-ctl@m17n.org 宛に

subscribe あなたの名前
の一行を書いた mail をお送りください。 その後、確認の mail を届きますので、その mail の中にある
confirm PASSWORD あなたの名前
の1行を本文にして返事を送ってください。

XEmacs UTF-2000

XEmacs UTF-2000 0.12 (柏原) における変更点

作成の仕方

少なくとも configure に --with-mule, --without-wnn, --with-utf-2000 を指定してください(まだ、Wnn は support されていません)。 また --with-text-coding も付けた方が良いかも知れません。

% ./configure --with-mule --without-xim --without-wnn --with-utf-2000 --with-text-coding

あとは通常の XEmacs の作成と何ら変わる所はありません。

% make
% make install

また、configure に --with-utf-2000 等を指定しないことで non-Mule/Mule XEmacs を作ることができます。

Sample Images


文書

歴史

参考文献

Links