[SIMILAR] WITH 7748 theorem WITH 6590 newsgroups WITH 1629 subject WITH 1516 bsfilter WITH 422 コメ WITH 398 対応 WITH 208 メン WITH 132 ント WITH 1 [ WITH 1 ] WITH 1 : WITH 1 re WITH 1 mh WITH 1 pick WITH 1 with WITH 1 bayes WITH 1 ' WITH 1 fj WITH 1 . WITH 1 mail WITH 1 system WITH 1 html WITH 1 のコ WITH 1 トは WITH 1 は対 WITH 1 応し WITH 1 して WITH 1 てあ WITH 1 ある WITH 1 るつ WITH 1 つも WITH 1 もり の検索結果 233 件中 161 - 170 件目 (0.274801946 秒)
Invalid Text ほんの少し高速化 連続していない漢字(==1文字だけ)も判定に使用する。動詞を拾うことが狙い MeCabが名詞と判断した物は、そのまま判定に使用する。以前は、ひらがなを捨てたり、カタカナと漢字でさらに分解したりしていた Prozaccが登録されていなかったら、最後の1文字を削ってProzacで試すよう ...
たださんのところで、false positive多発である。以下を試して頂けません? -v付きで実行。デフォルトのPaul Graham方式の場合、キーとなった15tokenのSPAM確率が表示される。その値が妥当なものか、表示されたtokenがメイルヘッダばかりだったりしないか、確認。 メイルヘッダばかりの場合は、-H付きで実行。 - ...
_ (スコア:1453)
r162_asianization branchで実験開始。が、spamしか持っていないので、効果が分からない。 euc-kr, ks_c_5601-1987を、ko databaseに入れる big5を、tw databaseに入れる gb2312を、cn databaseに入れる export/importのコードはutf-8 ko, tw, cnのデータベースのコードはutf-8 jaのデータベースのコードはeuc- ...
_ (スコア:1453)
-aが実用的でないので改造。 -aの場合、exitしてspamか否かをstatus codeで返す直前に、子プロセスをfork。親がexitしたあとに、子がデータベースの更新を行なう。子の処理時間は一見、見えない。 --synchronous-auto-updateは、旧-aに相当。forkせずに、データベースの更新をしてからexit。 tokenizerも少し変 ...
_ (スコア:1453)
Invalid Text BBSでの議論にもとづき、-c、-sでfindするのを止めた。 今後は、-c ~/Mail/inboxでは駄目で、-c ~/Mail/inbox/*とする必要がある。 ~/.bsfilter/bsfilter.confを読むようにした。--config-fileで指定することも出来る。--homedirと、--config-fileで、ハイフンの有無が違うのが、気持ち悪い。--co ...
_ (スコア:1439)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:1374)
--max-mail, --min-mail追加。databaseのサイズが制御できるはず。 ...
_ (スコア:1265)
procmailからの移行を検討中。maildroptipsには、"if ( /^Subject: rosebud/ )"という例がある。こういうの好き。Rubyアプリケーションプログラミングには、パスタを茹でるのにテニスラケットを使う話が出ていたと思う。 mhフォルダへの振り分けは出来ないみたい。ので、強引に対処。 SHELL=/bin/sh MAILDIR=$H ...
_ (スコア:1231)
あ、脱字がありました。 「中級や上になると」→「中級や上級になると」の間違いです。(^^;) このコメント欄ってコメントの削除や修正が出来ないんでしたっけ。 ...
_ (スコア:468)
以前、師匠のところに来たのよりも、コメントが圧倒的に多く、長い。 ...
_ (スコア:468)
_ (スコア:1453)