r162_asianization branchで実験開始。が、spamしか持っていないので、効果が分からない。
- euc-kr, ks_c_5601-1987を、ko databaseに入れる
- big5を、tw databaseに入れる
- gb2312を、cn databaseに入れる
- export/importのコードはutf-8
- ko, tw, cnのデータベースのコードはutf-8
- jaのデータベースのコードはeuc-jpのまま
- -v, -dでのメッセージ出力は、euc-jpだったりutf-8だったり
要検討な点
- ko, tw, cnのtokenizeはどうするか?
- revision 1.62.2.1は、2文字ごとに区切るだけ
- 句読点、記号、普通の文字の区別もしていない
- twとcnはマージすべきか?
- 他にサポートが必要なコードは?
- ks_c_5601-1987をeuc-krとして扱っているがいいのか?
韓国語? 朝鮮語?
いつになっても、tasktrayのiconを変更する件が始まらない。
このシリーズも、あと3巻で終わり。3世紀にキリスト教が台頭した理由として、こう書いている。
不安に満ちた時代に生きる人々は、寛容でリベラルなものよりも、不寛容で全体主義的でさえある信仰のほうに、より魅きつけられるものなのである。(p331)
なんか、最近の雰囲気と重なるな。
hangukのことは韓国語というのが南限定で考えればいいのでは。
NHKみたいに「ハングル語講座」という苦肉の策の表現もありますが。
北の文字コードは南と違うという話をみたことも。
あ、北からメイルは来ませんね。