[SIMILAR] WITH 11368 字目 WITH 7748 力文 WITH 7748 語判 WITH 7748 整us WITH 6859 、nk WITH 6633 tokenize WITH 5991 字一 WITH 5894 き別 WITH 4434 procmail WITH 4279 ト単 WITH 4150 nkf WITH 3613 改行 WITH 2437 字コ WITH 2390 revision WITH 2168 ト内 WITH 2127 単語 WITH 2054 一文 WITH 1928 本語 WITH 1771 文字 WITH 1516 bsfilter WITH 1293 更。 WITH 1272 単位 WITH 1267 コメ WITH 1226 推測 WITH 1185 漢字 WITH 1176 デバ WITH 1066 判定 WITH 965 語が WITH 896 言語 WITH 890 シピ WITH 858 で生 WITH 829 別れ の検索結果 215 件中 111 - 120 件目 (0.079638712 秒)
続き。 workmanが動かなくなり、official siteも無くなったようなので、xmcdインストール。 xmcdの文字が全く表示されないので調べていたら、XFree86 3.?のサーバを使っていたことが判明。X関係をuninstallしまくって、upgrade。 upgrade中に/があふれてabortされる。/etc/hosts、passwdあたりがデフォルトに戻 ...
spam特有のノイズに弱くなるような気がして、--ignore-after-last-atag --ignore-plain-text-partは使っていないのだが、本当にそうなのかベンチマークした。使っても使わなくても一緒、というのが手元のデータでの結論。 TESTHOME="/home/nabeken/tmp/def" OPTIONS="-v --homedir $TESTHOME" rm -r $TESTHOME ...
_ (スコア:735)
Ceekz Logsに、日経新聞とその他新聞の判定でベンチする話が出ている。 kakasiよりbigramの方がいいらしい。 ...
_ (スコア:735)
派手に文字化けしたメールが来た。 ◇本メールの送付を希望されない方は、こちらのURLから手続きを行って下さい。 http://r02.smp.ne.jp/... と書いてあるので、付き合いのある会社の名を騙ったフィッシングかと思った。 smp.ne.jpはML専門業者 "<", ">"で括られたMessage-IDをそのままmime boundaryに使った "< ...
_ (スコア:730)
以下のような方針でbsfilterを作ってみた。 基本的には、ベイジアンフィルタの改善 --- Better Bayesian Filteringに従う。 単語の定義として1から5まで挙げられているが、4は面倒なので無視。 5については、 subject to from unix-from, return-path url, mail addressっぽい奴 という分類をする。 還元はしな ...
_ (スコア:728)
逃避がてら,sh scriptを見てみました. mvしてからbsfilterしてるのは,ファイルのタイムスタンプをtouchで合わせるためですよね. 個人的にはprocessの起動を減らすため,mvで潰すように修正しようと思います. umaskかけておけば,chmodも要りません. ex. umask 077 bsfilter -a --pipe --... < $target > $target. ...
_ (スコア:709)
えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、 連続したひらがな、カタカナは1token 漢字は1文字で1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...
_ (スコア:707)
word saladの影響なんて関係ないのであれば,</BODY>とか</HTML>とかの後を無視する必要もない訳ですし,--ignore-plain-text-part, --ignore-after-last-atag, --ignore-bodyなんてのも要らないと思うのです. 他のBayesian spam filterでも,word saladの影響を無視できなくなってきている(spammerがfilter対策を ...
_ (スコア:625)
postfix -> bsfilter -> sieve -> cyrus imapd という経路での使用方法が説明されている。参考になる。 config-fileとhomedirが指定されている状態で、"HOME が ENV にないと bsfilter がエラーでこける。"というのはバグだ。 ...
_ (スコア:625)
% bsfilter --show-db-status db C 18545 3683 126378 9828 137071 db ja 60810 8881 47113 1075 96385 (18545 + 9828) / 137071 = 1.06 (60810 + 47113) / 96385 = 1.12 spamとcleanの語彙が根本的に異なっているように見える。重なっているのは6%/12%のみ % bsfilter --export-spam s.txt % bsfilter --expor ...
_ (スコア:625)
_ (スコア:740)