[SIMILAR] WITH 7748 会転 WITH 7748 倒日 WITH 6590 homedir WITH 6425 ・講 WITH 4550 bsfilter WITH 3351 postfix WITH 3139 用方 WITH 2734 真・ WITH 2730 習会 WITH 2324 経路 WITH 2031 転倒 WITH 1895 講習 WITH 693 バグ WITH 635 参考 WITH 595 エラ WITH 496 指定 WITH 453 使用 WITH 416 説明 WITH 415 方法 WITH 287 状態 WITH 245 ラー WITH 190 日記 WITH 1 [ WITH 1 ] WITH 1 -> WITH 1 sieve WITH 1 cyrus WITH 1 imapd WITH 1 とい WITH 1 いう WITH 1 う経 WITH 1 路で の検索結果 200 件中 131 - 140 件目 (0.066735574 秒)
IMAPサーバにもよって、普通にprocmailを使えるようなのもありますし、sieveのようなIMAPサーバ上で実行されるスクリプトを使う必要のあるものもあります。 あと、imapfilterというプログラムはIMAPでアクセスすることによって振り分けることができるようです。 (個人的にはimapfilterのようなものをRubyで作っ ...
MeCabを使ってみた。MeCabが切り分けたtokenから、漢字が2文字以上、連続する部分を拾っている。-dで意味不明のtokenが出てこないのは、気持ちがいい。 portsからインストールしたMeCabを使うには、rubyではなくruby_rを起動する必要があるので、スクリプトの先頭部分を書き換えた。emacsをruby-modeにする部分 ...
_ (スコア:2734)
どうしようかしら? 激しくツッコミ希望。 ChaSenあたりを使ってみる。 -u高速化。--incrementalオプションを付けて、"-u -c --incremental"とすると、メイルに出てきたtokenについてのみ、確率テーブルを計算し直す。-aも早くなる。 いっそのこと、確率テーブル廃止? SPAM判定のときに、その場でtoken database ...
_ (スコア:2734)
release-1.0.13になる予定。 --refer-headerオプション追加 複数行のContent-Transfer-Encodingがbase64, 8bitと言っている場合に、base64 decodeする uuencodeしたのを本文に貼り付けてあるっぽいのをスキップする shift-jisなMIME B-encodingをnkfがデコードしてくれないので、iso-2022-jpと書き換えてからnk ...
_ (スコア:2734)
動作は以下のようになる。 --add-spam spam中のtokenの出現回数を、データベースに加算する。 --update データベースに入っている全tokenについて、今までの出現回数からspam確率を計算する。 --add-spam --update spam中のtokenの出現回数を、データベースに加算し、そのspam中のtokenについてのみ、spam確率を ...
_ (スコア:2734)
たださんのところで、false positive多発である。以下を試して頂けません? -v付きで実行。デフォルトのPaul Graham方式の場合、キーとなった15tokenのSPAM確率が表示される。その値が妥当なものか、表示されたtokenがメイルヘッダばかりだったりしないか、確認。 メイルヘッダばかりの場合は、-H付きで実行。 - ...
_ (スコア:2734)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:2734)
SourceForge.jp 経由で bsfilter-1.0.14.rc1.tgz を入手しようとしたところ、 avast! Antivirus により、当該ファイルにはトロイの木馬「Win32:Ruby [Trj]」 が含まれているとの警告を受けました。 avast! version 4.7 Professional Build: May 2006 4.7.827 VPS ファイル (ウイルス・データベース) 編集日 : 2 ...
_ (スコア:2734)
r162_asianization branchで実験開始。が、spamしか持っていないので、効果が分からない。 euc-kr, ks_c_5601-1987を、ko databaseに入れる big5を、tw databaseに入れる gb2312を、cn databaseに入れる export/importのコードはutf-8 ko, tw, cnのデータベースのコードはutf-8 jaのデータベースのコードはeuc- ...
_ (スコア:2734)
日本語化関連のToDoが投稿されている。 ISO-2022-JP 以外の文字コードへの対応(パッチとしてすでに公開していますが本家にマージする作業が残っています) base64、Quoted Printable への対応 途中で改行されてしまった日本語の単語への対応 Subject の分かち書き insert.pl の日本語化(本家にマージする作業が ...
_ (スコア:2734)
_ (スコア:2734)