2003-03-08(Sat)

_ bsfilter - bayesian spam filter

以下のような方針でbsfilterを作ってみた。

  • 基本的には、ベイジアンフィルタの改善 --- Better Bayesian Filteringに従う。
  • 単語の定義として1から5まで挙げられているが、4は面倒なので無視。
  • 5については、
    • subject
    • to
    • from
    • unix-from, return-path
    • url, mail addressっぽい奴
    という分類をする。
  • 還元はしない。
  • いい加減にl10nする。
  • 某所のツッコミに従い、言語ごとに辞書を持つ。今のところは、日本語のメイルか、それ以外で分ける。
  • Gauche:SpamFilterを参考に、連続する漢字2文字を1トークンとする。

オプションとか

-c directory
clean(nospam)なメイルのトークンを辞書に足す。
-s directory
spamのトークンを辞書に足す。
-C directory
cleanなメイルのトークンを辞書から引く。
-S directory
spamのトークンを辞書から引く。
-u
tokenの出現回数が入った辞書から、spamな確率のテーブルを作る。
-a
メイルがspamかそうでないか認識して、結果に従いトークンを辞書に追加し、確率のテーブルを更新する。認識が当たっていれば、メンテナンスフリーで辞書が育つはず。

procmailから使えるかは、チェックしてない。

サイト内をbsfilterで検索。

_ 坂井議員逮捕:KSD事件機に献金停止申し出 日本マンパワー

政治家なら誰でもやってそうなことなのに坂井だけ問題になるのは、縁を切りたいマンパワーのタレコミによるのか?