[SIMILAR] WITH 7748 化連 WITH 7748 字(= WITH 7748 prozacc WITH 7748 系方 WITH 7380 築側 WITH 5655 robinson WITH 4334 動詞 WITH 3556 回出 WITH 3198 判定 WITH 2477 更点 WITH 2399 名詞 WITH 2371 漢字 WITH 2351 速化 WITH 1523 ペル WITH 1516 bsfilter WITH 1445 方式 WITH 1417 分解 WITH 1271 確率 WITH 1263 タベ WITH 1176 デバ WITH 1134 構築 WITH 1107 不要 WITH 994 カナ WITH 953 定に WITH 942 タカ WITH 907 使用 WITH 885 文字 WITH 873 高速 WITH 853 ヒッ WITH 764 カタ WITH 725 計算 WITH 719 連続 の検索結果 209 件中 1 - 10 件目 (0.070485557 秒)
Invalid Text ほんの少し高速化 連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すよう ...
Invalid Text気になるわけで。 H.Okada bsfilter 15というのはPaul Grahamが出してきたマジックナンバーなので、調整する余地はあるかも。 しゃれにならない日々。 対抗馬のmpは、blacklistを自動的にダウンロードする仕組みが付いている。Vipul's Razorと同じアプローチ? mp_spammer.txtには、"^from:.*@earth ...
_ (スコア:3101)
Gary Robinson方式導入。サンプルが少ない場合はPaul Graham方式の方が正答率が高くなりそうな気がしないでもない。 Paul Graham方式ではspam確率が0と1近辺に寄るが、Gary Robinson方式では結構ちらばる。ので、--spam_cutoffで遊べる。 Gary Robinson-Fisherは断念。 ...
_ (スコア:2978)
bogofilterは、Paul Graham -> Robinson -> Robinson-Fisherと、アルゴリズムを変えつつある。Robinson-Fisherを実装する? オプションとかをbogofilterに合わせておくべきだったか? でも、参考にせずに作っても、-sでspam追加なら、-Sで削除、というのは一緒。 ...
_ (スコア:2820)
ルールベースといいつつ、2.50からはベイジアンフィルタもついている。 bogofilterのsrc/dcdflib/dcdflib.cがなにを言っているか分からなかったので、bogofilterのRobinson-Fisher methodが実装出来なかったのだが、SpamAssassinのBayes.pmによれば sub chi2q { my ($x2, $v) = @_; die "v must be even in chi ...
_ (スコア:2777)
思案中。1は確定。 拡張じゃないけど、SDBM、Robinson-Fisherを使うのをデフォルトにする。 bsfilterが自力で"X-Spam-Flag: Yes"を付けるようにする? bsfilterが自力で"X-Spam-Score: 0.9"を付けるようにする? --spam-command、--clean-commandオプションで指定したコマンドに、メイルをパイプするようにする? ...
_ (スコア:2630)
Invalid Text BBSでの議論にもとづき、-c、-sでfindするのを止めた。 今後は、-c ~/Mail/inboxでは駄目で、-c ~/Mail/inbox/*とする必要がある。 ~/.bsfilter/bsfilter.confを読むようにした。--config-fileで指定することも出来る。--homedirと、--config-fileで、ハイフンの有無が違うのが、気持ち悪い。--co ...
_ (スコア:2524)
他動詞の「詰める、満たす、充電する」の方の意味だと思いますよ。 どっちにしろデポジットの方が適切なのは同意。 ...
_ (スコア:2128)
仕事をしていると上のほうで、あっちのプロジェクトよりこっちを優先とか、こっちのマンパワーをあっちへ投入とか、あれはそれベースでなくてこれベースで作るとか、度々あるわけで、なんだかなーという感じ。主語、副詞、目的語、動詞がランダムに選択されてナンセンスな文が表示される、子供のおもちゃみたい ...
_ (スコア:2128)
どうしようかしら? 激しくツッコミ希望。 ChaSenあたりを使ってみる。 -u高速化。--incrementalオプションを付けて、"-u -c --incremental"とすると、メイルに出てきたtokenについてのみ、確率テーブルを計算し直す。-aも早くなる。 いっそのこと、確率テーブル廃止? SPAM判定のときに、その場でtoken database ...
_ (スコア:1869)
_ (スコア:10000)