[SIMILAR] WITH 13814 現回 WITH 7748 bayespam WITH 7080 token WITH 6261 directory WITH 5991 tokenizer WITH 5492 数フ WITH 3722 hash WITH 2830 回数 WITH 2574 出現 WITH 2458 dir WITH 2214 file WITH 2046 致命 WITH 1973 命的 WITH 1765 ル中 WITH 1510 open WITH 1334 合計 WITH 771 を求 WITH 738 複数 WITH 718 疑問 WITH 655 相変 WITH 648 ァイ WITH 594 求め WITH 472 イル WITH 440 の出 WITH 387 ファ WITH 294 最後 WITH 197 コー WITH 147 ード WITH 1 [ WITH 1 spam WITH 1 ] WITH 1 bsproc の検索結果 93 件中 61 - 70 件目 (0.101878271 秒)
このコードを実行すると require 'sdbm' def dump(d) d.each do |c, v| p [c, v] end end dbm = SDBM::open("/tmp/hoge", 0644) ["a", "b", "c"].each do |c| dbm[c] = c end p "dump1" dump(dbm) dbm.each do |c, v| dbm[c] = v + "#" end p "dump2" dump(dbm) こうなる。 "dump1" ["a", "a"] ["b", "b"] ["c" ...
spam token databaseのサンプルを作った。疲れた。 --add-spam等でdatabaseを読み込めるようにした。素直に、TokenDBをMarshal::dump/loadすべきだったか? ToeknDB classの定義が、dumpした時点とloadした時点で異ると嫌なことがおきそうな気がして、それを避けたのだが。 ...
_ (スコア:3)
procmailからの移行を検討中。maildroptipsには、"if ( /^Subject: rosebud/ )"という例がある。こういうの好き。Rubyアプリケーションプログラミングには、パスタを茹でるのにテニスラケットを使う話が出ていたと思う。 mhフォルダへの振り分けは出来ないみたい。ので、強引に対処。 SHELL=/bin/sh MAILDIR=$H ...
_ (スコア:0)
spam特有のノイズに弱くなるような気がして、--ignore-after-last-atag --ignore-plain-text-partは使っていないのだが、本当にそうなのかベンチマークした。使っても使わなくても一緒、というのが手元のデータでの結論。 TESTHOME="/home/nabeken/tmp/def" OPTIONS="-v --homedir $TESTHOME" rm -r $TESTHOME ...
_ (スコア:0)
--update/--auto-update系の利用による,還元がbsfilterの重要なポイントだと思うのですけれど,この評価では還元の際にノイズでtoken DBが撹乱されてしまうかどうかがわからないと思うのです. # しばらく首が回りそうにないから手が回らないなぁ... :< ...
_ (スコア:0)
そろそろリリースしよう。release 1.0.0に対する変更は以下のはず。 --mark-in-token # で落ちるバグ修正 --export-probability 追加(デバッグ用) --insert-revision 追加 --header-prefix 追加 --imap-auth loginc 追加。LOGIN命令でIMAP serverに接続 --imap-auth auto 追加。適当にIMAP serverに接続。デフォ ...
_ (スコア:0)
Invalid Text ほんの少し高速化 連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すよう ...
_ (スコア:0)
たださんのところで、false positive多発である。以下を試して頂けません? -v付きで実行。デフォルトのPaul Graham方式の場合、キーとなった15tokenのSPAM確率が表示される。その値が妥当なものか、表示されたtokenがメイルヘッダばかりだったりしないか、確認。 メイルヘッダばかりの場合は、-H付きで実行。 - ...
_ (スコア:0)
% bsfilter --show-db-status db C 18545 3683 126378 9828 137071 db ja 60810 8881 47113 1075 96385 (18545 + 9828) / 137071 = 1.06 (60810 + 47113) / 96385 = 1.12 spamとcleanの語彙が根本的に異なっているように見える。重なっているのは6%/12%のみ % bsfilter --export-spam s.txt % bsfilter --expor ...
_ (スコア:0)
word saladの影響なんて関係ないのであれば,</BODY>とか</HTML>とかの後を無視する必要もない訳ですし,--ignore-plain-text-part, --ignore-after-last-atag, --ignore-bodyなんてのも要らないと思うのです. 他のBayesian spam filterでも,word saladの影響を無視できなくなってきている(spammerがfilter対策を ...
_ (スコア:0)
_ (スコア:114)