[SIMILAR] WITH 3878 supported WITH 3033 bsfilter WITH 649 サポ WITH 273 ポー WITH 139 ート WITH 1 [ WITH 1 ] WITH 1 kde WITH 1 commit WITH 1 - WITH 1 digest WITH 1 for WITH 1 2nd WITH 1 july WITH 1 2006 WITH 1 and WITH 1 dspam WITH 1 tools WITH 1 are WITH 1 now WITH 1 in WITH 1 the WITH 1 kmail WITH 1 anti WITH 1 spam WITH 1 wizard WITH 1 . WITH 1 どん WITH 1 んな WITH 1 な風 WITH 1 風に WITH 1 にサ の検索結果 262 件中 141 - 150 件目 (0.143249527 秒)
Invalid Text ほんの少し高速化 連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すよう ...
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:6096)
日本語化関連のToDoが投稿されている。 ISO-2022-JP 以外の文字コードへの対応(パッチとしてすでに公開していますが本家にマージする作業が残っています) base64、Quoted Printable への対応 途中で改行されてしまった日本語の単語への対応 Subject の分かち書き insert.pl の日本語化(本家にマージする作業が ...
_ (スコア:6096)
-aが実用的でないので改造。 -aの場合、exitしてspamか否かをstatus codeで返す直前に、子プロセスをfork。親がexitしたあとに、子がデータベースの更新を行なう。子の処理時間は一見、見えない。 --synchronous-auto-updateは、旧-aに相当。forkせずに、データベースの更新をしてからexit。 tokenizerも少し変 ...
_ (スコア:6096)
% bsfilter --show-db-status db C 18545 3683 126378 9828 137071 db ja 60810 8881 47113 1075 96385 (18545 + 9828) / 137071 = 1.06 (60810 + 47113) / 96385 = 1.12 spamとcleanの語彙が根本的に異なっているように見える。重なっているのは6%/12%のみ % bsfilter --export-spam s.txt % bsfilter --expor ...
_ (スコア:6023)
えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、 連続したひらがな、カタカナは1token 漢字は1文字で1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...
_ (スコア:6023)
日本語メイル中の英単語の扱いに問題があったので、修正。 --exec-spam "command args.."のようなオプションを付けようか迷っている。 ~/Mail/inbox/*に対してbsfilterを実行し、spamについてはformailで X-Spam-Flag: Yesヘッダを追加するというのを想定。 ...
_ (スコア:5969)
思案中。1は確定。 拡張じゃないけど、SDBM、Robinson-Fisherを使うのをデフォルトにする。 bsfilterが自力で"X-Spam-Flag: Yes"を付けるようにする? bsfilterが自力で"X-Spam-Score: 0.9"を付けるようにする? --spam-command、--clean-commandオプションで指定したコマンドに、メイルをパイプするようにする? ...
_ (スコア:5969)
spam特有のノイズに弱くなるような気がして、--ignore-after-last-atag --ignore-plain-text-partは使っていないのだが、本当にそうなのかベンチマークした。使っても使わなくても一緒、というのが手元のデータでの結論。 TESTHOME="/home/nabeken/tmp/def" OPTIONS="-v --homedir $TESTHOME" rm -r $TESTHOME ...
_ (スコア:5820)
Gary Robinson方式導入。サンプルが少ない場合はPaul Graham方式の方が正答率が高くなりそうな気がしないでもない。 Paul Graham方式ではspam確率が0と1近辺に寄るが、Gary Robinson方式では結構ちらばる。ので、--spam_cutoffで遊べる。 Gary Robinson-Fisherは断念。 ...
_ (スコア:5820)
_ (スコア:6096)