2003-04-29(Tue)

_ 反省会

渋谷にて。実がなかった。

_ 栄枯盛衰

横浜alic日進がコムサになったと思ったら、今度はヨドバシ。早すぎ。

_ bsfilter revision 1.15

-aが実用的でないので改造。

  • -aの場合、exitしてspamか否かをstatus codeで返す直前に、子プロセスをfork。親がexitしたあとに、子がデータベースの更新を行なう。子の処理時間は一見、見えない。
  • --synchronous-auto-updateは、旧-aに相当。forkせずに、データベースの更新をしてからexit。

tokenizerも少し変更。

  • 「!」に加えて、「'」、「*」もtokenの区切りと見なさないことにした。m*o*n*e*yが、moneyに見えないのは問題な気がするので。これは、-mオプションで調整できる。
  • 同時に、「還元」を導入した。ベイジアンフィルタの改善とは違って、記号削除、downcase、upcase、capitalizeという順でテーブルを引く。還元は、-Dで抑止できる。
  • 日本語メイル中の、いわゆる全角英字もASCIIに変換してからtokenizeするようにした。全角英数字はspamでの使用が多そうなので、ASCIIと分けて扱うべきのような気がしてしょうがないのであるが。
  • 日本語メイル中の、連続するカタカナも単語として扱うようにした。

また、誰かが2chで紹介してくれるかな?

_ 2ch

紹介してくれた。はやい。http://pc.2ch.net/test/read.cgi/unix/1024074390/488