[SIMILAR] WITH 15497 率テ WITH 15241 incremental WITH 10620 token WITH 8141 database WITH 7748 ミ希 WITH 7438 限膨 WITH 7380 ル廃 WITH 7107 全to WITH 7005 他? WITH 6466 止? WITH 6235 場回 WITH 4689 膨張 WITH 2542 確率 WITH 2351 速化 WITH 2322 。- WITH 1978 廃止 WITH 1959 無限 WITH 1820 。to WITH 1516 bsfilter WITH 1450 計算 WITH 1415 回数 WITH 1273 拡張 WITH 1066 判定 WITH 1025 オプ WITH 873 高速 WITH 830 プシ WITH 773 メイ WITH 745 、確 WITH 724 ーブ WITH 670 希望 WITH 604 ブル WITH 582 テー の検索結果 208 件中 1 - 10 件目 (0.049631664 秒)
どうしようかしら? 激しくツッコミ希望。 ChaSenあたりを使ってみる。 -u高速化。--incrementalオプションを付けて、"-u -c --incremental"とすると、メイルに出てきたtokenについてのみ、確率テーブルを計算し直す。-aも早くなる。 いっそのこと、確率テーブル廃止? SPAM判定のときに、その場でtoken database ...
clamXavをインストールすると、crontabからfreshclamを起動してパターンを自動で定期更新できるようになるが、ちょっとうまくいっていない。 +sが立っている -rwsr-xr-x 1 _clamav admin 255572 4 4 08:09 /usr/local/clamXav/bin/freshclam で drwxrwxr-x 6 _clamav _clamav 204 4 17 23:50 /usr/local/clamXa ...
_ (スコア:4666)
動作は以下のようになる。 --add-spam spam中のtokenの出現回数を、データベースに加算する。 --update データベースに入っている全tokenについて、今までの出現回数からspam確率を計算する。 --add-spam --update spam中のtokenの出現回数を、データベースに加算し、そのspam中のtokenについてのみ、spam確率を ...
_ (スコア:3843)
Invalid Text-u -c、-u -s、-a等のときに、メイルに出て来てたtokenについてのみ、確率データベースを更新するように変更。-c等と一緒ではなく、-u単独の場合は、従来通り、全tokenについて再計算する。 の、1、2は終了したつもり。 ...
_ (スコア:3536)
0.2.10が出ているが、相変わらず、疑問なコードがbayespam.rbにある。 def token_freq_dir(directory) hash = {} Dir.open(directory) do |dir| dir.each do |file| next if file =~ /^\./ File.open(directory + '/' + file) do |f| hash.update(tokenizer(f)) 複数ファイル中のtokenの出現回数の合計を求めて ...
_ (スコア:3180)
漢字にマッチしなくなってたのをデバッグ メイルのヘッダ中のtokenは、ヘッダごとにカウント Receivedのタイムスタンプは、いい加減に捨てる。Message-Id、Date等も捨てる それっぽいのは、base64 decodeする でも、MIMEの解釈はしない 20文字以上のtokenは捨てる tokenizerがぐちゃぐちゃになったので、要修正 ...
_ (スコア:3179)
MeCabを使ってみた。MeCabが切り分けたtokenから、漢字が2文字以上、連続する部分を拾っている。-dで意味不明のtokenが出てこないのは、気持ちがいい。 portsからインストールしたMeCabを使うには、rubyではなくruby_rを起動する必要があるので、スクリプトの先頭部分を書き換えた。emacsをruby-modeにする部分 ...
_ (スコア:3172)
Invalid Text BBSでの議論にもとづき、-c、-sでfindするのを止めた。 今後は、-c ~/Mail/inboxでは駄目で、-c ~/Mail/inbox/*とする必要がある。 ~/.bsfilter/bsfilter.confを読むようにした。--config-fileで指定することも出来る。--homedirと、--config-fileで、ハイフンの有無が違うのが、気持ち悪い。--co ...
_ (スコア:3138)
KAKASI+NetBSDで障害報告。怪しいのは以下の近辺。 拡張ライブラリの問題で、私には障害再現/デバッグ出来ない予感。とりあえず、MeCabでなくKAKASIで生活してみよう。 Kakasi::kakasi("-oeuc -w", str).scan(/\S+/).each do |token| token.gsub!(Reg_not_kanji_katakana, '') ...
_ (スコア:3134)
category + "*" + tokenという文字列がハッシュのキーで目覚めが悪かったので、hash[category][token]のように修正 unix from, from, to, cc, subject, received, reply-to, return-path, content-transfer-encoding, content-type以外のヘッダを捨てるように変更 相変わらずMIMEの解釈はしないが、base64、quo ...
_ (スコア:2967)
_ (スコア:10000)