2004-05-14(Fri) [長年日記]

_1 [bsfilter] 韓国語、中国語サポート

r162_asianization branchで実験開始。が、spamしか持っていないので、効果が分からない。

  • euc-kr, ks_c_5601-1987を、ko databaseに入れる
  • big5を、tw databaseに入れる
  • gb2312を、cn databaseに入れる
  • export/importのコードはutf-8
    • ko, tw, cnのデータベースのコードはutf-8
    • jaのデータベースのコードはeuc-jpのまま
    • -v, -dでのメッセージ出力は、euc-jpだったりutf-8だったり

要検討な点

  • ko, tw, cnのtokenizeはどうするか?
    • revision 1.62.2.1は、2文字ごとに区切るだけ
    • 句読点、記号、普通の文字の区別もしていない
  • twとcnはマージすべきか?
  • 他にサポートが必要なコードは?
    • ks_c_5601-1987をeuc-krとして扱っているがいいのか?

韓国語? 朝鮮語?

いつになっても、tasktrayのiconを変更する件が始まらない。

_2 [読書] 塩野 七生 "ローマ人の物語 (12) -迷走する帝国"

ローマ人の物語 (12) -迷走する帝国このシリーズも、あと3巻で終わり。3世紀にキリスト教が台頭した理由として、こう書いている。

不安に満ちた時代に生きる人々は、寛容でリベラルなものよりも、不寛容で全体主義的でさえある信仰のほうに、より魅きつけられるものなのである。(p331)

なんか、最近の雰囲気と重なるな。

本日のツッコミ(全2件) [ツッコミを入れる]
_ otsune (2004-05-16(Sun) 19:26)

hangukのことは韓国語というのが南限定で考えればいいのでは。
NHKみたいに「ハングル語講座」という苦肉の策の表現もありますが。
北の文字コードは南と違うという話をみたことも。

_ nabeken (2004-05-16(Sun) 21:45)

あ、北からメイルは来ませんね。

[]