[SIMILAR] WITH 3446 既読 WITH 3049 読メ WITH 1516 bsfilter WITH 1370 発行 WITH 194 メー WITH 109 ール WITH 1 [ WITH 1 ] WITH 1 ルが WITH 1 が残 WITH 1 残る WITH 1 積ん WITH 1 んde WITH 1 dele WITH 1 が発 WITH 1 行さ WITH 1 され WITH 1 れて WITH 1 てな WITH 1 ない WITH 1 い説 の検索結果 247 件中 11 - 20 件目 (0.169944796 秒)
「他のツールに任せるべき?」という点では、bsfilterをloadできたりするとうれしいと思うことはあります。__FILE__を使うとかなんとかで。ただ、/bin/shで起動するようになっていますから、そのままloadできるようにするのは難しそうですね。 ...
普通にインストール出来る。 perl-5.8, p5-Text-Kakasiをportsからmake install マルチプラットホーム版POPFileをget、展開 日本語化パッチ(popfile_jpn_src.zip)をget、展開 日本語化パッチのClassifier, UI, languages, manual, stopwordsで、マルチプラットホーム版を上書き perl5.8.0 -I /usr/local/lib/pe ...
_ (スコア:3008)
日本語化関連のToDoが投稿されている。 ISO-2022-JP 以外の文字コードへの対応(パッチとしてすでに公開していますが本家にマージする作業が残っています) base64、Quoted Printable への対応 途中で改行されてしまった日本語の単語への対応 Subject の分かち書き insert.pl の日本語化(本家にマージする作業が ...
_ (スコア:3008)
Invalid Text気になるわけで。 H.Okada bsfilter 15というのはPaul Grahamが出してきたマジックナンバーなので、調整する余地はあるかも。 しゃれにならない日々。 対抗馬のmpは、blacklistを自動的にダウンロードする仕組みが付いている。Vipul's Razorと同じアプローチ? mp_spammer.txtには、"^from:.*@earth ...
_ (スコア:3008)
長官も何度か止まると言っているので、gdbmをサポートしてみる。 以下で移行可能。 bsfilter --db sdbm --export-clean | bsfilter --db gdbm --import-clean bsfilter --db sdbm --export-spam | bsfilter --db gdbm --import-spam bsfilter --db gdbm -u データベースを縮小するとき(デフォルトでは10000通を ...
_ (スコア:3008)
spam特有のノイズに弱くなるような気がして、--ignore-after-last-atag --ignore-plain-text-partは使っていないのだが、本当にそうなのかベンチマークした。使っても使わなくても一緒、というのが手元のデータでの結論。 TESTHOME="/home/nabeken/tmp/def" OPTIONS="-v --homedir $TESTHOME" rm -r $TESTHOME ...
_ (スコア:3008)
しつこく更新。 本文中の"From"を"unix from"だと誤解するケースがあるので、--mboxが指定されない限り、"unix from"を探さないように変更。 日本語のtokenizeに入る前に、">>"等の引用マークを削除するように変更。単語の途中で改行され、引用マークが入っても、単語として切り出すように努力する。 ...
_ (スコア:3008)
ruby-1.6.4でエラーするのを対策したつもり IMAPでアクセスするとき、フォルダ単位だけでなく、メイル単位の指定も可能に bsfilter --imap inbox/1 bsfilter --imap inbox/1,2,3 bsfilter --imap inbox/1:3 勢いでChaSen, KAKASIもサポート ...
_ (スコア:3008)
revision 1.34.4系で実験中。コマンドラインなり、bsfilter.confなりで以下のような指定をする。imap-authはcram-md5でもいいはず。 imap-server localhost imap-port 143 imap-auth login imap-user nabeken imap-password 秘密 imap-folder-clean inbox.maybe_clean imap-folder-spam inbox.maybe_spam 使い方 ...
_ (スコア:3008)
えむもじらの"training.datの構造"を参考に、training.datをダンプするdump_mozdatを作った。tokenizerの仕様は、大筋、 連続したひらがな、カタカナは1token 漢字は1文字で1token となっている模様。 NAME dump_mozdat SYNOPSIS dump_mozdat [--export-clean|--export-spam] training.dat DESCRIPTION dump tr ...
_ (スコア:3008)
_ (スコア:3016)