[SIMILAR] WITH 23966 training WITH 22494 mozdat WITH 14628 export WITH 7748 造" WITH 7620 1token WITH 7380 tokens WITH 6812 synopsis WITH 6789 dump WITH 6279 clean WITH 6066 bsfilter WITH 5991 tokenizer WITH 4362 大筋 WITH 3694 dat WITH 3218 description WITH 2422 control WITH 2296 format WITH 2184 options WITH 1327 プす WITH 1217 mozilla WITH 1185 漢字 WITH 1106 ダン WITH 1060 構造 WITH 1035 出力 WITH 994 カナ WITH 977 形式 WITH 945 spam WITH 942 タカ WITH 837 デフ WITH 764 カタ WITH 723 ンポ WITH 719 仕様 WITH 719 連続 の検索結果 219 件中 151 - 160 件目 (0.047152691 秒)
最近はデフォルトが"--method rf"なので、tokenizerが拾ってきたtokenを全部使って判定してます。 "--method g"については、15token固定なので、これを可変にという提案がありました。どうしよう... ...
0.2.10が出ているが、相変わらず、疑問なコードがbayespam.rbにある。 def token_freq_dir(directory) hash = {} Dir.open(directory) do |dir| dir.each do |file| next if file =~ /^\./ File.open(directory + '/' + file) do |f| hash.update(tokenizer(f)) 複数ファイル中のtokenの出現回数の合計を求めて ...
_ (スコア:1434)
Invalid Text-cはファイルを1個だけ引数に取るオプションであるという仕様は、ヰさんにとっても、たださんにとっても、普通ではないようなので仕様を変更。revision 1.26以降ではたださんの記述通りに使える。 -c、-sは、オプションとしては引数を取らない。コマンドラインとして引数を取る。 -c、-sを指定する ...
_ (スコア:1385)
bsfilterはspamフィルターとしてもうほとんど完成していると思うので拡張のアイディアを出すのが難しそうですね。 ifileというbayesianベースのspamフィルタリングソフトがあるのですが、こいつはspamだけでなくcleanなメールの内容についても学習し、内容ごとに自動的に振り分けしてくれるという妙な進化をして ...
_ (スコア:1351)
word saladの影響なんて関係ないのであれば,</BODY>とか</HTML>とかの後を無視する必要もない訳ですし,--ignore-plain-text-part, --ignore-after-last-atag, --ignore-bodyなんてのも要らないと思うのです. 他のBayesian spam filterでも,word saladの影響を無視できなくなってきている(spammerがfilter対策を ...
_ (スコア:1351)
ベイジアンフィルタによる迷惑メール対策の効果的な利用に関する考察 統計的フィルタリングに対するWord Salad 攻撃についての考察 Evaluation of Anti-spam Method Combining Bayesian Filtering and Strong Challenge and Response Density-Based Spam Detector| ...
_ (スコア:1351)
r162_asianization branchで実験開始。が、spamしか持っていないので、効果が分からない。 euc-kr, ks_c_5601-1987を、ko databaseに入れる big5を、tw databaseに入れる gb2312を、cn databaseに入れる export/importのコードはutf-8 ko, tw, cnのデータベースのコードはutf-8 jaのデータベースのコードはeuc- ...
_ (スコア:1338)
ツッコミの"オプションを付けるとセット"は"リセット"の誤り。 revision 1.35.4.6では IMAPでアクセスした時、デフォルトではSEENフラグを変更しない --imap-reset-seen-flagをつけると、ヘッダを変更したとき、もしくは、メイルを違うフォルダに移動したとき、SEENをリセットする という仕様。 ...
_ (スコア:1329)
だいたいパート単位でStringにしてから、nkf、tokenizeするように変更。以下のケースが救えるはず。 日本語の単語の1文字目と2文字目が、改行で生き別れ 日本語がbase64されていてると、 漢字一文字が生き別れ JISの場合、nkfがかからなかったかも 日本語が短すぎて、nkfが入力文字コードの推測に失敗してたかも ...
_ (スコア:1318)
_ (スコア:1448)