2004-02-07(Sat) [長年日記]

_1 [bsfilter] revision 1.38.4.9

デバッグ
--update --sub-spamの際、確率データベースに誤った値が入る場合があったのを修正。--update --add-spam --sub-spamであれば、問題なし。
-B|--ignore-body
URL、メイルアドレスを除いて、メイル本文を無視する。
--show-process
動作の様子を表示する。左のカラムから、プロトコル、言語、判定結果、学習コマンド、日時、message-idを意味する。
--show-db-status
データベースの状況を表示して終了する。左のカラムから"db"(固定)、言語、clean tokenの数、clean mailの数、spam tokenの数、spam mailの数、確率データベース内のtoken数を意味する。
tokenizer変更
<html>の外側のtokenを無視するように変更。
mew.tgz変更
bsfilterしてからmvするようにshell scriptを変更。一部、チェック強化。

Exerb 3.2.0 + ruby-1.8.1で.exeを作ろうとしたが、.exeを実行しても一瞬で終了するだけなので、2.2.7 + ruby-1.8.0で作るように戻した。

本日のツッコミ(全2件) [ツッコミを入れる]
_ やまぐち@愛知 (2004-02-08(Sun) 15:19)

--ingore-bodyですが,電話番号らしき数字,-,+の羅列も学習対象に含めるのは如何でしょう.<br>--ignore-bodyを愛用してみても擦り抜けるものがあり,よく観察してみるとURLやE-mailアドレスらしきものはなく,電話番号だけが書かれているものでした.<br><br>細かく対応しだすと,「ぢゃ,郵送を誘うものだと?」とか,「US式に電話番号をアルファベットで表現したものは?」とか,きりがないと思いますので,どこかで割り切る必要があるとは思いますけれど.

_ nabeken (2004-02-08(Sun) 16:04)

問題がなければ、電話番号だけのspamをフォワードして頂けませんか?


トップ «前の日記(2004-02-06(Fri)) 最新 次の日記(2004-02-08(Sun))»