[SIMILAR] WITH 14426 識率 WITH 7748 15token WITH 7748 ダば WITH 7323 上策 WITH 6309 率向 WITH 5991 positive WITH 5930 ルヘ WITH 5572 要) WITH 4562 method WITH 3899 行( WITH 2763 実行 WITH 2709 、- WITH 2542 確率 WITH 2208 ッダ WITH 1997 多発 WITH 1891 spam WITH 1720 で実 WITH 1695 妥当 WITH 1571 。-- WITH 1516 bsfilter WITH 1461 ヘッ WITH 1445 方式 WITH 1188 認識 WITH 1146 向上 WITH 1145 表示 WITH 1065 行。 WITH 962 率が WITH 837 デフ WITH 795 調整 WITH 773 メイ WITH 761 範囲 WITH 651 レポ の検索結果 124 件中 1 - 10 件目 (0.08293588 秒)
たださんのところで、false positive多発である。以下を試して頂けません? -v付きで実行。デフォルトのPaul Graham方式の場合、キーとなった15tokenのSPAM確率が表示される。その値が妥当なものか、表示されたtokenがメイルヘッダばかりだったりしないか、確認。 メイルヘッダばかりの場合は、-H付きで実行。 - ...
最近はデフォルトが"--method rf"なので、tokenizerが拾ってきたtokenを全部使って判定してます。 "--method g"については、15token固定なので、これを可変にという提案がありました。どうしよう... ...
_ (スコア:3525)
書店向けのコラムをまとめたもの。収益向上を狙って物流の効率向上というようなネタ中心。そこが筑摩書房の生命線という判断。 ...
_ (スコア:2543)
hashメンバを足そうとしてはまる。Object#hashがあるのでmethod_missingが呼ばれないのかな。 ...
_ (スコア:1835)
spam特有のノイズに弱くなるような気がして、--ignore-after-last-atag --ignore-plain-text-partは使っていないのだが、本当にそうなのかベンチマークした。使っても使わなくても一緒、というのが手元のデータでの結論。 TESTHOME="/home/nabeken/tmp/def" OPTIONS="-v --homedir $TESTHOME" rm -r $TESTHOME ...
_ (スコア:1759)
Invalid Text-u -c、-u -s、-a等のときに、メイルに出て来てたtokenについてのみ、確率データベースを更新するように変更。-c等と一緒ではなく、-u単独の場合は、従来通り、全tokenについて再計算する。 の、1、2は終了したつもり。 ...
_ (スコア:1569)
動作は以下のようになる。 --add-spam spam中のtokenの出現回数を、データベースに加算する。 --update データベースに入っている全tokenについて、今までの出現回数からspam確率を計算する。 --add-spam --update spam中のtokenの出現回数を、データベースに加算し、そのspam中のtokenについてのみ、spam確率を ...
_ (スコア:1494)
Invalid Text BBSでの議論にもとづき、-c、-sでfindするのを止めた。 今後は、-c ~/Mail/inboxでは駄目で、-c ~/Mail/inbox/*とする必要がある。 ~/.bsfilter/bsfilter.confを読むようにした。--config-fileで指定することも出来る。--homedirと、--config-fileで、ハイフンの有無が違うのが、気持ち悪い。--co ...
_ (スコア:1406)
word saladの影響なんて関係ないのであれば,</BODY>とか</HTML>とかの後を無視する必要もない訳ですし,--ignore-plain-text-part, --ignore-after-last-atag, --ignore-bodyなんてのも要らないと思うのです. 他のBayesian spam filterでも,word saladの影響を無視できなくなってきている(spammerがfilter対策を ...
_ (スコア:1342)
_ (スコア:10000)