[SIMILAR] WITH 15497 率テ WITH 15241 incremental WITH 10620 token WITH 8141 database WITH 7748 ミ希 WITH 7438 限膨 WITH 7380 ル廃 WITH 7107 全to WITH 7005 他? WITH 6466 止? WITH 6235 場回 WITH 4689 膨張 WITH 2542 確率 WITH 2351 速化 WITH 2322 。- WITH 1978 廃止 WITH 1959 無限 WITH 1820 。to WITH 1516 bsfilter WITH 1450 計算 WITH 1415 回数 WITH 1273 拡張 WITH 1066 判定 WITH 1025 オプ WITH 873 高速 WITH 830 プシ WITH 773 メイ WITH 745 、確 WITH 724 ーブ WITH 670 希望 WITH 604 ブル WITH 582 テー の検索結果 208 件中 61 - 70 件目 (0.221929082 秒)
mundomicro.comからsourceforge.jpのアカウントに来ているメールがフィッシングっぽい。 www.nicos.co.jpのイメージを使いつつ、http://nicos.concourse.jp:443/へ誘っている感じ。 charset=windows-1252なので、bsfilterが日本語と思わず、数値参照をiconvしてくれない。が、spam判定。 ...
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:567)
revision 1.34.4系で実験中。コマンドラインなり、bsfilter.confなりで以下のような指定をする。imap-authはcram-md5でもいいはず。 imap-server localhost imap-port 143 imap-auth login imap-user nabeken imap-password 秘密 imap-folder-clean inbox.maybe_clean imap-folder-spam inbox.maybe_spam 使い方 ...
_ (スコア:564)
mewから使えるようにしてみた。procmailが必要。 bm SPAMか判定。SPAMの場合は、X-Spam-Flag: Yesが付く。cleanの場合は、No。 bM @マークが付いているメイルについて、一括でSPAM判定。 bs SPAMとして、データベース更新。見逃したSPAMにX-Spam-Flag: Yesを付ける。 bS 一括して同上。 bc cleanとして同上。 b ...
_ (スコア:563)
Lens掲示板で出ていた、bsfilter.rbのようなものを、revision 1.56でマージ。使い方は、wakatonoの戯れメモ参考。でも、仕様変えるかも... /dev/nullをopenしているので、-qオプションを非UNIX系で使うと、ヤバいかも。 ...
_ (スコア:558)
spam特有のノイズに弱くなるような気がして、--ignore-after-last-atag --ignore-plain-text-partは使っていないのだが、本当にそうなのかベンチマークした。使っても使わなくても一緒、というのが手元のデータでの結論。 TESTHOME="/home/nabeken/tmp/def" OPTIONS="-v --homedir $TESTHOME" rm -r $TESTHOME ...
_ (スコア:546)
SDBMサポート。デフォルトのmarshalに比べて、-s、-c、spam判定は格段に速い。-uはちょっと遅い。 データベースの肥大を抑える仕組みがそのうち必要になる? ...
_ (スコア:546)
--pop-max-size number numberより大きなメイルは、判定、学習の対象にしない。単にバイパスする オプション名を微妙に変更 単位をバイトに戻した バイパスする際は、pop daemonからMUAへパイプラインで渡す。今までは、メイル全体をbsfilterが受け取った後、MUAに渡していた デフォルト値は30000(byte)。0はサ ...
_ (スコア:546)
全てのreceivedヘッダを見ていたのを止めて、送り手に一番近いものだけを見るように変更。特にML経由の場合、後半のreceivedは見るだけ無駄なので。-Hを付けた方が判定精度が高いという話も、これが影響していたのかもしれない。 html中のnumeric character referenceを無視するように変更。FreeBSD-users-jp 7 ...
_ (スコア:546)
Ceekz Logsに、日経新聞とその他新聞の判定でベンチする話が出ている。 kakasiよりbigramの方がいいらしい。 ...
_ (スコア:546)
_ (スコア:567)